注意力机制英語attention是人工神经网络中一种模仿认知注意力的技术.这种机制可以增强神经网络输入数据中某些部分的权重同时减弱其他部分的权重以此将网络的关注点聚焦于数据中最重要的一小部分.数据中哪些部分比其他部分更重要取决于上下文.可以通过梯度下降法对注意力机制进行训练.类似于注意力机制的架构最早于1990年代提出当时提出的名称包括乘法模块multiplicative module sigma pi单元超网络hypernetwork等.注意力机制的灵活性来自于它的软权重特性即这种权重是可以在运行时改变的而非像通常的权重一样必须在运行时保持固定.注意力机制的用途包括神经图灵机中的记忆功能可微分神经计算机中的推理任务2Transformer模型中的语言处理Perceiver感知器模型中的多模态数据处理声音图像视频和文本.人类的注意力机制Attention Mechanism是从直觉中得到它是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段.深度学习中的注意力机制借鉴了人类的注意力思维方式被广泛的应用在自然语言