介绍 VSUA模型将图像表示为结构化图,其中的节点是所谓的视觉语义单位(VSU):对象,属性和关系单位。 我们的VSUA模型利用了字幕词和VSU之间的对齐方式。 引文 如果您发现此代码对您的研究有用,请引用 @inproceedings{guo2019vsua, title={Aligning Linguistic Words and Visual Semantic Units for Image Captioning}, author={Longteng Guo, Jing Liu, Jinhui Tang, Jiangwei Li, Wei Luo, and Hanqing Lu},