目的:图像的中文描述结合了计算机视觉和自然语言处理的两个方向。 它是人工智能算法中多模式和跨域问题的典型代表。 图像中文描述模型需要为每个给定的测试图片输出中文描述,描述符合自然语言习惯的句子要求,并指出图像中的重要信息,涵盖主要字符,场景,动作等内容。 由于当前的开源数据集主要是英语,因此图像描述方向的研究主要是英语。 中文说明通常在语法和词汇化方面具有更大的灵活性,并且算法实现的挑战也很大。 因此,只有很少的人研究图像描述,尤其是中文描述。 方法:本研究试图从Flickr8k-cn和Flickr30k-cn数据集导出图像描述生成模型。 在描述的每个时间段,模型可以决定是否更多地依赖图像或文