以前在统计教科书上学过用方差(Variance)衡量变异程度。变异程度、不确定性、多样性等名词在多个学科里出现,而且有着某种关联。后来学到熵(entropy)也是一种很好的衡量不确定性的指标,所以小结一下与熵。
热熵
热熵是表示分子状态混乱程度的物理量,而且还有一个所谓『熵增原理』,即:宇宙中的熵总是增加的,换句话说,分子状态总是从有序变成无序(无序即为不确定性),热量总是从高温部分向低温部分传递。 香农借用了这个概念,用信息熵来描述信源的不确定度。
信息熵
一个信息源越不确定,里面蕴含的信息量越大。信息熵用来衡量信息量的大小。若不确定性越大,则信息量越大,熵越大;若不确定性越小,则信息量越小,熵越小
微分熵
对于一个连续型变量,无法直接使用上面香农熵的定义。可以近似地对连续型变量的取值进行离散化。与离散型变量的香农熵不同,微分熵可以是负的。
相对熵(KL散度)
相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异
DKL 的值越小,表示q分布和p分布越接近
交叉熵cross entropy
有Binary cross entropy,Categorical cross entropy,是人工神经网络中常见的损失函数。