[深度学习]动手学深度学习笔记 5

宇 29 0 PDF 2021-01-16 17:01:24

Task2——梯度消失、梯度爆炸 5.1 梯度消失与梯度爆炸的概念 深度神经网络训练的时候,采用的是反向传播方式,该方式使用链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深。 那么如果连乘的因子大部分小于1,最后乘积的结果可能趋于0,也就是梯度消失,后面的网络层的参数不发生变化. 那么如果连乘的因子大部分大于1,最后乘积可能趋于无穷,这就是梯度爆炸。 5.2 梯度消失与梯度爆炸的后果 梯度消失会导致我们的神经网络中前面层的网络权重无法得到更新,也就停止了学习。 梯度爆炸会使得学习不稳定, 参数变化太大导致无法获取最优参数。 在深度多层感知机网络中,梯度爆炸会导致网络不稳定,最

用户评论
请输入评论内容
评分:
暂无评论