全球自我关注网络 ,该提出了一种全关注的视觉主干,该主干比具有较少参数和计算的卷积可以获得更好的结果。 他们使用先前发现的,进行了少量修改以获取更多收益(对查询不进行标准化),并与相对位置注意相对,并轴向计算了效率。 结果是一个非常简单的电路,由8个累加值,1个softmax和归一化组成。 安装 $ pip install gsa-pytorch 用法 import torch from gsa_pytorch import GSA gsa = GSA ( dim = 3 , dim_out = 64 , dim_key = 32 , heads = 8 , rel_pos_length = 256 # in paper, set to max(height, width). you can also turn this off by omit