1. Abstract Attention 机制注重于视觉内容与问题的相关联系,但难以解决复杂的推理问题。为了解决这个问题,本文提出了 MUREL 架构模型,简单来说 MUREL 由多个 MUREL 单元整合而成。 直观上来说,在 VQA 领域,Attention 机制相当于在给定问题的前提下,对每个 Image region 打分后做信息加权。由于忽略了 Image region 间的 spatial 和 semantic 间的关联,所以不能做到有效地推理。 2. Model 2.1 MUREL cell MUREL 单元用于发掘 Question 和 Image region 间的细粒度关