总得来说,这篇文章较为抽象,理解起来相当费劲。很多地方加入了个人描述语句,如果有理解不当的地方,还望指出。 1. Abstract 协同注意力机制 ( Co-Attention ) 对每个模态的输入建立各自的注意力分布,忽略模态输入间的相互关联,这可以有效的降低计算开销。本文就是在协同注意力机制的基础上更进一步,考虑不同模态的输入的通道间的相互关联。以 VQA 为例,本文是为了发掘 Question 和 Image 在不同通道间的注意力分布,然后建立两者间的相互关联,最后以联合表征的形式输出信息。同时本文还提出了 MRN 变体,可以用来学习多模态输入间的关系,究其本质通过残差连接方式,学习多个