Xformer_Pytorch 目录 介绍 根据( ),人们提出了许多基于x-formers的基于Transformer的模型来提高推理过程中的效率,尤其是通过减少推理时间。 由于注意模块中的点积运算使Transformer模型的平方计算成为瓶颈,因此大多数x-former的主要焦点是对注意模块的修改。 在此存储库中,我们遵循和的想法来实现Xformer注意模块。 该模块已与兼容。 Xformer架构 我们在修改Q,K和V的投影矩阵时保留了原始的注意操作。K和V的投影矩阵具有相同的权重,并通过$ \ beta $ (> 1)合并输入序列的序列长度维。 Q的投影矩阵通过$ \ alpha $