视频描述是自动生成描述给定视频内容的自然语言句子。它广泛适用于人类机器交互,帮助视力受损和视频标题生成。由于计算机视觉和自然语言处理的深度学习取得了前所未有的成功,过去几年来该领域的研究大量增加。研究文献中提出了许多方法,数据集和评估指标,呼吁需要进行全面调研综述,以将研究工作集中在这一蓬勃发展的新方向上。