ID3、C4.5 和 CART 算法:水果数据树桩模型构建与决策树可视化
由于题目给出的数据缺少属性值的具体含义,以下假设:
- 长条:是否呈现长条状
- 甜:是否呈现甜味
- 黄色:是否呈现黄色
ID3 算法
首先计算每个属性的信息增益:
- 长条:Ent(400/500, 100/500) = 0.7219,Gain = 0.3219
- 甜:Ent(500/1000, 500/1000) = 1.0000,Gain = 0.0000
- 黄色:Ent(450/500, 50/500) = 0.7219,Gain = 0.3219
因此选择信息增益最大的属性,即长条作为根节点进行分类。决策树如下:
长条=是
|_ 香蕉
长条=否
|_ 橘子/其他
C4.5 算法
首先计算每个属性的信息增益比:
- 长条:Ent(400/500, 100/500) = 0.7219,GainRatio = 0.3219 / 1.0000 = 0.3219
- 甜:Ent(500/1000, 500/1000) = 1.0000,GainRatio = 0.0000 / 1.0000 = 0.0000
- 黄色:Ent(450/500, 50/500) = 0.7219,GainRatio = 0.3219 / 1.0000 = 0.3219
因此选择信息增益比最大的属性,即长条作为根节点进行分类。决策树如下:
长条=是
|_ 香蕉
长条=否
|_ 橘子/其他
CART 算法
首先计算每个属性的基尼指数:
- 长条:Gini(400/500, 100/500) = 0.4800
- 甜:Gini(500/1000, 500/1000) = 0.5000
- 黄色:Gini(450/500, 50/500) = 0.4800
因此选择基尼指数最小的属性,即长条作为根节点进行分类。决策树如下:
长条=是
|_ 香蕉
长条=否
|_ 橘子/其他
原文地址: https://www.cveoy.top/t/topic/n6I4 著作权归作者所有。请勿转载和采集!