问题:1、交叉熵CH(p,q)公式的p和q分别是随机变量X的两种分布吗?能这样描述吗:p和q是随机变量X的两个样本集。p和q的正确描述应该是怎样的?CH(p,q)就是Venn图里的I(X;Y)吗?交叉熵的值越大或越小说明了什么问题? 2、把交叉熵用在deep learning中的多分类损失函数时,为什么预测值和真实值(预测值和真实值相当于同一个随机变量的两种分布?)的交叉熵能够反映“判断模型对真实概率分布估计的准确程度”? 3、上图中tensorflow里交叉熵的实现:cross_ent = -tf.reduce_mean(tf.reduce_sum(y_*tf.log(y), reduc