过拟合欠拟合及其解决方案;梯度消失梯度爆炸;循环神经网络进阶;机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer;卷积神经网络基础;le

bingo~~ 11 0 PDF 2021-01-10 20:01:09

1.过拟合欠拟合及其解决方案 一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting)。 模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。 2.梯度消失梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。 假设一个层数为LLL的多层感知机的第lll层H(l)\boldsymbol{H}^{(l)}H(l)的权重参数为W(l)\boldsymbol{W}^{(l)}W(l),输出层H(L)\boldsymbol{H}^{(L)}

用户评论
请输入评论内容
评分:
暂无评论