要理解视觉世界,机器不仅必须识别单个目标,还必须识别它们是如何交互的。本文提出了一种新的模型,挑战日常照片中检测⟨人类、动词、目标⟩三元组的任务。