梯度消失和爆炸 当神经网络的层数较多时,模型的稳定性就容易变差 简单的来说,假设一个层数为L的多层感知机的第l层H(l)H^{(l)}H(l)的权重参数为W(l)W^{(l)}W(l),输出层H(L)H^{(L)}H(L)的权重为W(L)W^{(L)}W(L).在这里我们不考虑偏差参数设所有的激活函数为恒等映射及Φ(x)=x\Phi (x) =xΦ(x)=x。给定输入X,多层感知机第l的输出就会为H(l)=XW(1)W(2)....W(n)H^{(l)}=XW^(1)W^(2)....W^(n)H(l)=XW(1)W(2)....W(n)。如果l较大,这个时候H(l)H^{(l)}H(l)就会出现衰减和爆