信息增益、增益率、基尼系数、误分类率计算案例

计算信息增益、增益率、基尼系数、误分类率案例分析

数据集：

假设我们有5个样本，每个样本包含颜色和形状两个特征，用于预测样本类别（红色或蓝色）。

3个样本：红色圆形* 2个样本：蓝色三角形

目标：

利用颜色和形状特征，计算信息增益、信息增益率、基尼系数和误分类错误率，并比较哪个特征更适合用于预测样本类别。

计算步骤：

计算原始数据集的熵:

由于有两个类别（红色和蓝色），我们可以使用以下公式计算熵：

H(S) = -∑(i=1 to 2) pi * log2(pi)

其中，pi 表示类别 i 在数据集 S 中出现的概率。在本例中，p1 (红色) = 3/5，p2 (蓝色) = 2/5。

代入公式，得到：

H(S) = -(3/5) * log2(3/5) - (2/5) * log2(2/5) ≈ 0.971
计算每个特征的信息增益:

颜色特征：

IG(S, Color) = H(S) - ∑(v∈Values(Color)) (|Sv| / |S|) * H(Sv)

其中：
- Values(Color) 表示颜色特征的可能取值（红色和蓝色）。 * Sv 表示颜色为 v 的样本子集。 * |Sv| 表示 Sv 中样本的数量。
在本例中， |S_red| = 3，|S_blue| = 2。

我们需要计算 H(S_red) 和 H(S_blue)。

H(S_red) = -(2/3) * log2(2/3) - (1/3) * log2(1/3) ≈ 0.918 H(S_blue) = -(1/2) * log2(1/2) - (1/2) * log2(1/2) = 1

将这些值代入信息增益公式：

IG(S, Color) = 0.971 - (3/5) * 0.918 - (2/5) * 1 ≈ 0.020

形状特征:

同样地，我们可以计算形状特征的信息增益：

IG(S, Shape) = H(S) - ∑(v∈Values(Shape)) (|Sv| / |S|) * H(Sv)

经过计算，我们发现 IG(S, Shape) ≈ 0.020。

结论: 颜色和形状特征的信息增益相同，这意味着它们对预测样本类别具有相似的区分能力。
计算基尼系数:

我们以颜色特征为例，计算基尼系数：

Gini(S, Color) = ∑(v∈Values(Color)) (|Sv| / |S|) * (1 - ∑(i=1 to 2) pvi^2)

其中，pvi 表示在颜色为 v 的情况下，类别 i 在 Sv 中出现的概率。

代入公式计算：

Gini(S, Color) = (3/5) * (2 * (2/3) * (1/3)) + (2/5) * (2 * (1/2) * (1/2)) = 0.48
计算信息增益率:

以颜色特征为例，计算信息增益率：

IGR(S, Color) = IG(S, Color) / H(S) ≈ 0.020 / 0.971 ≈ 0.021
计算误分类错误率:

以颜色特征为例，计算误分类错误率：

ERR(S, Color) = (错误分类样本数) / (总样本数) = (1 + 0) / 5 = 0.2

其中，1 表示颜色为红色的样本中有 1 个被错误分类为蓝色。

总结:

通过计算信息增益、增益率、基尼系数和误分类错误率，我们可以比较不同特征对预测样本类别的影响。在本例中，颜色和形状特征具有相同的信息增益，说明它们对区分样本类别具有相似的能力。实际应用中，我们需要根据具体问题选择合适的指标来评估特征的重要性。