动手学课程学习回顾: 2:nlp领域 机器翻译 数据预处理——分词——建立词典——载入数据集 encoder、decoder 注意力机制 输入:询问、键值对 softmax屏蔽 超二维矩阵乘法 点积注意力 多层感知机注意力 seq2seq模型 transformer cnn与rnn的区别 多头注意力基于位置的前馈网络 add and norm 位置编码 优化与估计 局部最小值,鞍点,梯度消失 凸性、jensen不等式 梯度下降 一维梯度下降、学习率、局部极小值、多维梯度下降、自适应方法(牛顿法)、收敛性分析、随机梯度下降、共轭梯度法、动态学习率、小批量随机梯度下降 momentum 数据增广