目录1. Seq2seq2. Transformer3. Self-Attention 机制详解4. Positional Encoding5. Layer Normalization6. Transformer Encoder 与 Decoder7. 总结Others 最近在家听贪心学院的NLP直播课。放到博客上作为NLP 课程的简单的梳理。 简介: ELMo等基于深度学习的方法可以有效地学习出上下文有关词向量,但毕竟是基于LSTM的序列模型,必然要面临梯度以及无法并行化的问题,即便结合使用注意力机制。在本次讲座里,我们重点来讲解Transformer模型,它的核心是Self-Attenti