轻量化混合卷积和transformer网络发论文的热点
CNN的成功依赖于其两个固有的归纳偏置即平移不变性和局部相关性而视觉Transformer结构通常缺少这种特性导致通常需要大量数据才能超越CNN的表现CNN在小数据集上的表现通常比纯Transformer结构要好.CNN感受野有限导致很难捕获全局信息而Transformer可以捕获长距离依赖关系因此ViT出现之后有许多工作尝试将CNN和Transformer结合使得网络结构能够继承CNN和Transformer的优点并且最大程度保留全局和局部特征.Transformer是一种基于注意力的编码器解码器结构最初应用于自然语言处理领域一些研究最近尝试将Transformer应用到计算机视觉领域.在Transformer应用到视觉之前卷积神经网络是主要研究内容.受到自注意力在NLP领域的影响一些基于CNN的结构尝试通过加入自注意力层捕获长距离依赖关系也有另外一些工作直接尝试用自注意力模块替代卷积但是纯注意力模块结构仍然没有最先进的CNN结构表现好.
暂无评论