计算信息增益、增益率、基尼系数、误分类率案例分析

数据集:

假设我们有5个样本,每个样本包含颜色和形状两个特征,用于预测样本类别(红色或蓝色)。

  • 3个样本:红色圆形* 2个样本:蓝色三角形

目标:

利用颜色和形状特征,计算信息增益、信息增益率、基尼系数和误分类错误率,并比较哪个特征更适合用于预测样本类别。

计算步骤:

  1. 计算原始数据集的熵:

    由于有两个类别(红色和蓝色),我们可以使用以下公式计算熵:

    H(S) = -∑(i=1 to 2) pi * log2(pi)

    其中,pi 表示类别 i 在数据集 S 中出现的概率。 在本例中,p1 (红色) = 3/5,p2 (蓝色) = 2/5。

    代入公式,得到:

    H(S) = -(3/5) * log2(3/5) - (2/5) * log2(2/5) ≈ 0.971

  2. 计算每个特征的信息增益:

    颜色特征:

    IG(S, Color) = H(S) - ∑(v∈Values(Color)) (|Sv| / |S|) * H(Sv)

    其中:

    • Values(Color) 表示颜色特征的可能取值(红色和蓝色)。 * Sv 表示颜色为 v 的样本子集。 * |Sv| 表示 Sv 中样本的数量。

    在本例中, |S_red| = 3|S_blue| = 2

    我们需要计算 H(S_red)H(S_blue)

    H(S_red) = -(2/3) * log2(2/3) - (1/3) * log2(1/3) ≈ 0.918 H(S_blue) = -(1/2) * log2(1/2) - (1/2) * log2(1/2) = 1

    将这些值代入信息增益公式:

    IG(S, Color) = 0.971 - (3/5) * 0.918 - (2/5) * 1 ≈ 0.020

    形状特征:

    同样地,我们可以计算形状特征的信息增益:

    IG(S, Shape) = H(S) - ∑(v∈Values(Shape)) (|Sv| / |S|) * H(Sv)

    经过计算,我们发现 IG(S, Shape) ≈ 0.020

    结论: 颜色和形状特征的信息增益相同,这意味着它们对预测样本类别具有相似的区分能力。

  3. 计算基尼系数:

    我们以颜色特征为例,计算基尼系数:

    Gini(S, Color) = ∑(v∈Values(Color)) (|Sv| / |S|) * (1 - ∑(i=1 to 2) pvi^2)

    其中,pvi 表示在颜色为 v 的情况下,类别 iSv 中出现的概率。

    代入公式计算:

    Gini(S, Color) = (3/5) * (2 * (2/3) * (1/3)) + (2/5) * (2 * (1/2) * (1/2)) = 0.48

  4. 计算信息增益率:

    以颜色特征为例,计算信息增益率:

    IGR(S, Color) = IG(S, Color) / H(S) ≈ 0.020 / 0.971 ≈ 0.021

  5. 计算误分类错误率:

    以颜色特征为例,计算误分类错误率:

    ERR(S, Color) = (错误分类样本数) / (总样本数) = (1 + 0) / 5 = 0.2

    其中,1 表示颜色为红色的样本中有 1 个被错误分类为蓝色。

总结:

通过计算信息增益、增益率、基尼系数和误分类错误率,我们可以比较不同特征对预测样本类别的影响。在本例中,颜色和形状特征具有相同的信息增益,说明它们对区分样本类别具有相似的能力。实际应用中,我们需要根据具体问题选择合适的指标来评估特征的重要性。

信息增益、增益率、基尼系数、误分类率计算案例

原文地址: https://www.cveoy.top/t/topic/fYM8 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录