参考1:李宏毅 https://www.bilibili.com/video/av9770302?p=9 (上图应该省略了一个归一化层,模型通过标签知道应该(x1,y1)对应的值是最大的,就会学习到这样一个概率分布,这里直接将attention的weight作为output的distribution) 把(x1,y1)丢进去产生新的z1,继而产生新的attention的weight 当END的attention的weight最大时结束 另一个参考模型图: pointer network的另一个应用:对文本进行summary 不使用pointer network:解码器产生key与编码