决策树构建:信息增益选择属性案例
本文通过一个学生考试数据集,演示了如何使用信息增益选择第一个属性构建决策树。
数据集
该数据集记录了某学生多次考试的情况:
| 是否通过考试 | 是否认真复习 | 是否超常发挥 | |---|---|---| | Yes | 是 | 否 | | Yes | 是 | 是 | | Yes | 是 | 否 | | Yes | 是 | 是 | | Yes | 是 | 否 | | Yes | 否 | 是 | | No | 否 | 否 | | No | 否 | 是 |
构建决策树
根据信息增益选择第一个属性,可以发现'是否认真复习'是最优的分裂属性,因为它的信息增益最大。
因此,我们可以根据'是否认真复习'将数据集分为两个子集:
- 子集1:认真复习的学生
- 子集2:没有认真复习的学生
对于子集1,所有学生都通过考试,因此无需再进行分裂,叶节点为'Yes'。
对于子集2,可以继续使用信息增益选择分裂属性。这里我们发现'是否超常发挥'是最优的分裂属性,因为它的信息增益最大。
因此,我们可以根据'是否超常发挥'将子集2分为两个子集:
- 子集2.1:没有认真复习且没有超常发挥的学生
- 子集2.2:没有认真复习但超常发挥的学生
对于子集2.1,所有学生都没有通过考试,因此无需再进行分裂,叶节点为'No'。
对于子集2.2,所有学生都通过考试,因此无需再进行分裂,叶节点为'Yes'。
最终得到的决策树如下:

原文地址: http://www.cveoy.top/t/topic/nJaC 著作权归作者所有。请勿转载和采集!