信息增益、增益率、基尼系数、误分类率计算案例
计算信息增益、增益率、基尼系数、误分类率案例分析
数据集:
假设我们有5个样本,每个样本包含颜色和形状两个特征,用于预测样本类别(红色或蓝色)。
- 3个样本:红色圆形* 2个样本:蓝色三角形
目标:
利用颜色和形状特征,计算信息增益、信息增益率、基尼系数和误分类错误率,并比较哪个特征更适合用于预测样本类别。
计算步骤:
-
计算原始数据集的熵:
由于有两个类别(红色和蓝色),我们可以使用以下公式计算熵:
H(S) = -∑(i=1 to 2) pi * log2(pi)其中,
pi表示类别i在数据集S中出现的概率。 在本例中,p1(红色) = 3/5,p2(蓝色) = 2/5。代入公式,得到:
H(S) = -(3/5) * log2(3/5) - (2/5) * log2(2/5) ≈ 0.971 -
计算每个特征的信息增益:
颜色特征:
IG(S, Color) = H(S) - ∑(v∈Values(Color)) (|Sv| / |S|) * H(Sv)其中:
Values(Color)表示颜色特征的可能取值(红色和蓝色)。 *Sv表示颜色为v的样本子集。 *|Sv|表示Sv中样本的数量。
在本例中,
|S_red| = 3,|S_blue| = 2。我们需要计算
H(S_red)和H(S_blue)。H(S_red) = -(2/3) * log2(2/3) - (1/3) * log2(1/3) ≈ 0.918 H(S_blue) = -(1/2) * log2(1/2) - (1/2) * log2(1/2) = 1将这些值代入信息增益公式:
IG(S, Color) = 0.971 - (3/5) * 0.918 - (2/5) * 1 ≈ 0.020形状特征:
同样地,我们可以计算形状特征的信息增益:
IG(S, Shape) = H(S) - ∑(v∈Values(Shape)) (|Sv| / |S|) * H(Sv)经过计算,我们发现
IG(S, Shape) ≈ 0.020。结论: 颜色和形状特征的信息增益相同,这意味着它们对预测样本类别具有相似的区分能力。
-
计算基尼系数:
我们以颜色特征为例,计算基尼系数:
Gini(S, Color) = ∑(v∈Values(Color)) (|Sv| / |S|) * (1 - ∑(i=1 to 2) pvi^2)其中,
pvi表示在颜色为v的情况下,类别i在Sv中出现的概率。代入公式计算:
Gini(S, Color) = (3/5) * (2 * (2/3) * (1/3)) + (2/5) * (2 * (1/2) * (1/2)) = 0.48 -
计算信息增益率:
以颜色特征为例,计算信息增益率:
IGR(S, Color) = IG(S, Color) / H(S) ≈ 0.020 / 0.971 ≈ 0.021 -
计算误分类错误率:
以颜色特征为例,计算误分类错误率:
ERR(S, Color) = (错误分类样本数) / (总样本数) = (1 + 0) / 5 = 0.2其中,
1表示颜色为红色的样本中有 1 个被错误分类为蓝色。
总结:
通过计算信息增益、增益率、基尼系数和误分类错误率,我们可以比较不同特征对预测样本类别的影响。在本例中,颜色和形状特征具有相同的信息增益,说明它们对区分样本类别具有相似的能力。实际应用中,我们需要根据具体问题选择合适的指标来评估特征的重要性。
原文地址: https://www.cveoy.top/t/topic/fYM8 著作权归作者所有。请勿转载和采集!