针对多感知器,梯度下降算法 1.预测一个连续值,我们的做法是,不对他激活,直接输出 2.预测“是”或“否”的分类问题,则对输出层,做sigmoid运算二分类输出 3.多分类softmax运算,输出多个分类在概率上的分别 多层感知器的优化是利用了梯度下降算法 所谓“学习”便是改进模型参数,以便通过大量训练步骤将损失最小化 梯度的输出向量表明了在每个位置损失函数增长最快的方向, 可将它视为表示了在函数的每个位置向哪个方向移动函数值 可以增长。 曲线对应于损失函数。点表示权值的当前值,即现在所在的 位置。 梯度用箭头表示,表明为了增加损失,需要向右移动。此外, 箭头的长度概念化地表示了如果在对应