梯度消失和梯度爆炸 当神经网络的层数较多时,模型的数值稳定性容易变差。 假设一个层数为 L 的多层感知机的第 l 层 H(l) 的权重参数为 W(l) ,输出层 H(L) 的权重参数为 W(L) 。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity mapping) φ(x)=x 。给定输入 X ,多层感知机的第 l 层的输出 H(l)=XW(1)W(2)...W(l) 。此时,如果层数 l 较大, H(l) 的计算可能会出现衰减或爆炸。当层数较多时,梯度的计算也容易出现消失或爆炸。 随机初始化模型参数 假设输出层只保留一个输出单元 o1 (删去 o2 和 o3 以