梯度的消失与爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。 假设一个层数为的多层感知机的第k层的权重参数为W(k),输出层m层的权重参数为W(m)。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射。给定输入X,多层感知机的第k层的输出H(k)=XW(1)W(2)...W(k)。此时,如果层数较大,H(k)的计算可能会出现衰减或爆炸。举个例子,假设输入和所有层的权重参数都是标量,如权重参数为0.2和5,多层感知机的第30层输出为输入分别与0.2的30次方(会产生梯度消失)和5分30次方