尽管在训练过程中缺乏显式的复杂性控制,如显式正则化项,但参数化过度的深层网络预测效果良好。对于指数型损失函数,我们通过在与分类相关的归一化权值方面展示梯度下降的有效正则化效果来解决这个难题。