1 为什么使用CNN学习序列表示 和RNN相比,CNN产生的背景向量固定 并且通过stacking 可以使 contex size 更大,如下图。 和RNN相比,CNN产生的背景向量固定 并且通过stacking 可以使 contex size 更大,如上图。 Hierarchy representation 如图1,只需要三次CNN operation ,而需要 7 次 rnn 才能覆盖整个句子; 且RNN对于句首和句尾的非线性是不一致的 2 为什么引入注意力机制 Cho et al.,2014 解码器中目标序列中的任意一个词只考虑了编码器最终的映状态,即attend to 输入整 个