梯度消失问题的解决方法 梯度消失问题 Sigmoid函数 梯度范围可能变得越来越小 在反向传播超过5层后,梯度可能会消失 激活函数 ReLU函数(rectified linear unit) 导数: ReLU可被近似为softplut函数 x增加时ReLU的梯度不会消失,可以用来对正值输入进行建模,由于无需计算指数函数所以它的计算速度很快,使用它可以不再需要“预训练”过程。 ResNet:深度残差网络 训练深度网络的困难性: 有时,即使是在训练数据上更深层的网络性能也可能比较浅层的网络差。 一个ResNet的构造块 残差网络在ImageNet上的表现 细线表示训练误差,粗