假设有一个数据集,包含8个样本,每个样本有两个特征:颜色和形状。颜色有红、绿、蓝三种可能取值,形状有圆、方两种可能取值。每个样本还有一个标签,表示它属于哪一类,标签有A、B两种可能取值。数据如下表所示:

| 样本 | 颜色 | 形状 | 标签 | | --- | --- | --- | --- | | 1 | 红 | 圆 | A | | 2 | 红 | 圆 | A | | 3 | 绿 | 圆 | A | | 4 | 蓝 | 圆 | A | | 5 | 蓝 | 方 | B | | 6 | 绿 | 方 | B | | 7 | 绿 | 方 | B | | 8 | 蓝 | 方 | B |

我们想要用颜色和形状这两个特征来预测标签。下面分别计算各个特征的信息增益、信息增益率、基尼系数和误分类错误率。

首先计算整个数据集的熵:

$$H(D) = - rac{4}{8} \log_2 \frac{4}{8} - \frac{4}{8} \log_2 \frac{4}{8} = 1$$

接着计算按颜色划分的信息增益:

$$H(D_\text{红}) = - rac{2}{2} \log_2 \frac{2}{2} = 0 \H(D_\text{绿}) = - rac{1}{1} \log_2 \frac{1}{1} = 0 \H(D_\text{蓝}) = - rac{1}{4} \log_2 \frac{1}{4} - \frac{3}{4} \log_2 \frac{3}{4} \approx 0.811 \H_A(D) = \frac{2}{8} H(D_\text{红}) + \frac{2}{8} H(D_\text{绿}) + \frac{4}{8} H(D_\text{蓝}) \approx 0.5 \ \text{信息增益} = H(D) - H_A(D) \approx 0.5$$

按形状划分的信息增益同理:

$$H(D_\text{圆}) = - rac{4}{4} \log_2 \frac{4}{4} = 0 \H(D_\text{方}) = - rac{2}{4} \log_2 \frac{2}{4} - \frac{2}{4} \log_2 \frac{2}{4} = 1 \H_B(D) = \frac{4}{8} H(D_\text{圆}) + \frac{4}{8} H(D_\text{方}) = 0.5 \ \text{信息增益} = H(D) - H_B(D) = 0.5$$

接下来计算信息增益率:

$$\text{信息增益率} = \frac{\text{信息增益}}{\text{划分前的熵}} = \frac{0.5}{1} = 0.5$$

计算基尼系数:

$$G(D_\text{红}) = 0 \G(D_\text{绿}) = 0 \G(D_\text{蓝}) = 2 \times \frac{1}{4} \times \frac{3}{4} = \frac{3}{8} \G_A(D) = \frac{2}{8} G(D_\text{红}) + \frac{2}{8} G(D_\text{绿}) + \frac{4}{8} G(D_\text{蓝}) = \frac{3}{16} \G(D_\text{圆}) = 0 \G(D_\text{方}) = 2 \times \frac{2}{4} \times \frac{2}{4} = \frac{1}{2} \G_B(D) = \frac{4}{8} G(D_\text{圆}) + \frac{4}{8} G(D_\text{方}) = \frac{1}{4} \ \text{基尼系数} = \min(G_A(D), G_B(D)) = \frac{1}{4}$$

最后计算误分类错误率:

$$\text{误分类错误率} = \frac{1}{8} (\min(2, 2) + \min(1, 3) + \min(2, 2) + \min(3, 1) + \min(1, 3) + \min(2, 2) + \min(3, 1) + \min(1, 3)) = \frac{1}{4}$$

综上所述,按颜色和形状划分的信息增益、信息增益率、基尼系数和误分类错误率均相同,都是0.5、0.5、0.25和0.25。因此,两个特征都是同样有效的划分特征,可以任选其一。

信息增益、信息增益率、基尼系数和误分类错误率计算示例

原文地址: https://www.cveoy.top/t/topic/fYM0 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录