直截了当:通过使用文本数据进行强化学习来快速转发视频 该存储库包含在CVPR 2020上发表的论文``的原始实现。 我们提出一种基于强化学习公式的新颖方法,以加快教学视频的速度。 代理在文本和视觉上定向为自适应地选择与传达原始视频的信息无关的帧。 此外,我们提出了一种新颖的多模式网络,称为视觉引导文档注意网络(VDAN),该网络能够生成高度可区分的嵌入空间来表示文本和视觉数据。 如果您发现此代码对您的研究有用,请引用以下文章: @INPROCEEDINGS{Ramos_2020_CVPR, author={W. {Ramos} and M. {Silva} and E. {Arau