参考链接:https://zhuanlan.zhihu.com/p/61944055 信息熵: 表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。熵越大,随机变量或系统的不确定性就越大。公式如下: 相对熵: 又称KL散度,用于衡量对于同一个随机变量x的两个分布p(x)和q(x)之间的差异。在机器学习中,p(x)从常用于描述样本的真实分布,而q(x)常用于表示预测的分布。KL散度值越小表示两个分布越接近。 公式如下: 交叉熵(cross entropy): 将KL散度公式进行变形得到: 前半部分就是p(x)的熵,后半部分就是交叉熵: 机器学习中,我们常常使用KL散度来评估pr