在本文中,我们探索图像之间的双向映射及其基于句子的描述。 对于我们的方法而言,至关重要的是一个递归神经网络,它会在生成或读取字幕时尝试动态构建场景的视觉表示。 代表会自动学会记住长期的视觉概念。 我们的模型既可以在给定图像的情况下生成新颖的字幕,又可以在给定图像描述的情况下重建视觉特征。 我们在一些任务上评估我们的方法。 这些包括句子生成,句子检索和图像检索。 显示了用于生成新颖图像描述的任务的最新结果。 与人工生成的字幕相比,我们自动生成的字幕在21.0%的时间内等于或偏爱人类。 对于使用类似视觉特征的方法,结果比图像和句子检索任务上的最新结果更好或可比。