Transformer中的Attention层通常不包含Conv1D层,它主要有三个子层组成:自注意力层、残差连接和Layer Normalization。自注意力层是Attention层的核心,通过计算每个位置与其他位置之间的相似度,得到注意力矩阵,对输入序列进行加权求和,得到上下文向量序列。残差连接和Layer Normalization用于加速训练和提高模型性能。