由于题目给出的数据缺少属性值的具体含义,以下假设:

  • 长条:是否呈现长条状
  • 甜:是否呈现甜味
  • 黄色:是否呈现黄色

ID3 算法

首先计算每个属性的信息增益:

  • 长条:Ent(400/500, 100/500) = 0.7219,Gain = 0.3219
  • 甜:Ent(500/1000, 500/1000) = 1.0000,Gain = 0.0000
  • 黄色:Ent(450/500, 50/500) = 0.7219,Gain = 0.3219

因此选择信息增益最大的属性,即长条作为根节点进行分类。决策树如下:

长条=是
|_ 香蕉
长条=否
|_ 橘子/其他

C4.5 算法

首先计算每个属性的信息增益比:

  • 长条:Ent(400/500, 100/500) = 0.7219,GainRatio = 0.3219 / 1.0000 = 0.3219
  • 甜:Ent(500/1000, 500/1000) = 1.0000,GainRatio = 0.0000 / 1.0000 = 0.0000
  • 黄色:Ent(450/500, 50/500) = 0.7219,GainRatio = 0.3219 / 1.0000 = 0.3219

因此选择信息增益比最大的属性,即长条作为根节点进行分类。决策树如下:

长条=是
|_ 香蕉
长条=否
|_ 橘子/其他

CART 算法

首先计算每个属性的基尼指数:

  • 长条:Gini(400/500, 100/500) = 0.4800
  • 甜:Gini(500/1000, 500/1000) = 0.5000
  • 黄色:Gini(450/500, 50/500) = 0.4800

因此选择基尼指数最小的属性,即长条作为根节点进行分类。决策树如下:

长条=是
|_ 香蕉
长条=否
|_ 橘子/其他
ID3、C4.5 和 CART 算法:水果数据树桩模型构建与决策树可视化

原文地址: https://www.cveoy.top/t/topic/n6I4 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录