信息熵

信息熵在信息论中代表随机变量不确定的度量。- 系统中的不确定性的度量

  • 熵越大,数据的不确定性越高
  • 熵越小,数据的不确定性越低

热力学中引申出来: 熵越大,在一个热力系统中 ,那些粒子无规则运动就越剧烈;不确定性越高; 熵越小,粒子越倾向于静止,确定性越高!

$$H = - \sum_{i=1}^k p_i log(p_i) $$

$$H = -x log(x) - (1-x) log(1-x)$$

画出二分类的entropy曲线:

import numpy as np
import matplotlib.pyplot as plt
def entropy(p):
    return -p * np.log(p) - (1-p) * np.log(1-p)
x = np.linspace(0.01, 0.99, 100);
plt.plot(x, entropy(x))

从图中可知,当两者概率都是0.5的时候,熵是最大的,最不确定的。

在决策树中,在每个节点上都是在一个维度上对数据做划分,划分的结果是使得系统整体的信息熵降低。 让系统变得更加确定。 最终,每个叶子上都是相同的数据集,这时候系统的熵为0。 - 通过搜索获得最好的划分(熵最低)