TASK04 注意力机制 机器翻译 Transformer

qq_32494336 23 0 PDF 2021-01-16 09:01:54

将注意力机制放到这里,以后会用到。 练习题放在最前面: 关于Transformer描述正确的是: 在训练和预测过程中,解码器部分均只需进行一次前向传播。 Transformer 内部的注意力模块均为自注意力模块。 解码器部分在预测过程中需要使用 Attention Mask。 自注意力模块理论上可以捕捉任意距离的依赖关系。 答案解释 选项1:训练过程1次,预测过程要进行句子长度次 选项2:Decoder 部分的第二个注意力层不是自注意力,key-value来自编码器而query来自解码器 选项3:不需要 选项4:正确,因为自注意力会计算句子内任意两个位置的注意力权重 2. 在Transform

用户评论
请输入评论内容
评分:
暂无评论