决策树构建：信息增益选择属性案例

本文通过一个学生考试数据集，演示了如何使用信息增益选择第一个属性构建决策树。

数据集

该数据集记录了某学生多次考试的情况：

| 是否通过考试 | 是否认真复习 | 是否超常发挥 | |---|---|---| | Yes | 是 | 否 | | Yes | 是 | 是 | | Yes | 是 | 否 | | Yes | 是 | 是 | | Yes | 是 | 否 | | Yes | 否 | 是 | | No | 否 | 否 | | No | 否 | 是 |

构建决策树

根据信息增益选择第一个属性，可以发现'是否认真复习'是最优的分裂属性，因为它的信息增益最大。

因此，我们可以根据'是否认真复习'将数据集分为两个子集：

子集1：认真复习的学生
子集2：没有认真复习的学生

对于子集1，所有学生都通过考试，因此无需再进行分裂，叶节点为'Yes'。

对于子集2，可以继续使用信息增益选择分裂属性。这里我们发现'是否超常发挥'是最优的分裂属性，因为它的信息增益最大。

因此，我们可以根据'是否超常发挥'将子集2分为两个子集：

子集2.1：没有认真复习且没有超常发挥的学生
子集2.2：没有认真复习但超常发挥的学生

对于子集2.1，所有学生都没有通过考试，因此无需再进行分裂，叶节点为'No'。

对于子集2.2，所有学生都通过考试，因此无需再进行分裂，叶节点为'Yes'。

最终得到的决策树如下：

decision tree