近年来,图像文本建模研究已经成为自然语言处理领域一个重要的研究方向。图像常被用于增强句子的语义理解与表示。然而也有研究人员对图像信息用于句子语义理解的必要性提出质疑,原因是文本本身就能够提供强有力的先验知识,帮助模型取得非常好的效果;甚至在不使用图像的条件下就能得出正确的答案。因此研究图像文本建模需要首先回答一个问题:图像是否有助于句子语义的理解与表示?
为此,选择一个典型的不包含图像的自然语言语义理解任务:自然语言推理,并将图像信息引入到该任务中用于验证图像信息的有效性。由于自然语言推理任务是一个单一的自然语言任务,在数据标注过程中没有考虑图像信息,因此选择该任务能够更客观地分析出图像信息对句子语义理解与表示的影响。
具体而言,提出一种通用的即插即用框架(general plug and play framework)用于图像信息的整合。基于该框架,选择目前最先进的五个自然语言推理模型,对比分析这些模型在使用图像信息前后的表现,以及使用不同图像处理模型与不同图像设置时的表现。
最后,在一个大规模公开数据集上进行了大量实验,实验结果证实图像作为额外知识,确实有助于句子语义的理解与表示。此外,还证实了不同的图像处理模型和使用方法对整个模型的表现也会造成不同的影响。
暂无评论