基尼系数
$$ G = 1 - \sum_{i=1}^k p_i^2 $$
$$G = 1 - x^2 - (1-x)^2 = -2x^2 + 2x$$
当x=1/2时,达到极值。
因为计算信息熵需要计算log,是一个非线性函数,计算比基尼系数稍慢。
sklearn中默认使用基尼系数做决策。
大多数时候二者没有特别的效果优劣。
信息熵对应的曲线本质上不是抛物线,基尼系数对应的曲线是一条抛物线。
$$ G = 1 - \sum_{i=1}^k p_i^2 $$
$$G = 1 - x^2 - (1-x)^2 = -2x^2 + 2x$$
当x=1/2时,达到极值。
因为计算信息熵需要计算log,是一个非线性函数,计算比基尼系数稍慢。
sklearn中默认使用基尼系数做决策。
大多数时候二者没有特别的效果优劣。
信息熵对应的曲线本质上不是抛物线,基尼系数对应的曲线是一条抛物线。