思考 我们会发现,在机器学习实战中,做分类问题的时候经常会使用一种损失函数(Loss Function)——交叉熵损失函数(CrossEntropy Loss)。但是,为什么在做分类问题时要用交叉熵损失函数而不用我们经常使用的平方损失函数呢? 这时候就应该想一下,损失函数需要做什么?怎样的损失函数才是最合适的? 一般而言,我们都希望损失函数能够做到,当我们预测的值跟目标值越远时,在更新参数的时候,应该减去一个更大的值,做到更快速的下降,并且不容易遇到陷入局部最优、鞍点以及平坦区域等问题。具体可看《[Machine Learning] 欠拟合 & 过拟合(Underfitting & Overf