在实现多层感知机代码实现中使用了ReLU激活函数: ReLU(x)=max(x,0)ReLU(x)=max(x,0)ReLU(x)=max(x,0) 形状大概是这样的 这里根据几个问题来进行回答解释 为什么要使用激活函数呢? 简单来说激活函数的作用就是将仿射函数进行非线性化,可以拟合出更多的情况。更详细的解答可以参考知乎激活函数的解释 ReLU函数的梯度问题 首先谈一下sigimoid函数的梯度,通常不选用它是因为sigmoid函数可能有梯度消失的情况,原因可以看它的梯度函数图 可以看到蓝色的线是sigmoid函数图像,橘色的线是它的梯度图。当输入值特别大或者特别小的时候,sigmoid函