信息增益、信息增益率、基尼系数和误分类错误率计算示例
假设有一个数据集,其中包含10个样本,每个样本有两个特征:颜色和形状。其中5个样本是红色的圆形,2个样本是红色的方形,1个样本是蓝色的圆形,1个样本是蓝色的方形,1个样本是绿色的圆形。现在我们想要使用颜色和形状这两个特征来预测样本的类别(0表示负例,1表示正例)。
首先,我们需要计算颜色这个特征的信息增益。我们可以使用以下公式来计算:
信息增益 = 父节点的熵 - 条件熵
父节点的熵可以通过计算所有样本的类别分布来得到:
父节点的熵 = - (5/10 * log2(5/10) + 5/10 * log2(5/10)) = 1.0
对于颜色这个特征,我们需要计算红色、蓝色和绿色三种情况下的条件熵:
红色的条件熵 = -(5/7 * log2(5/7) + 2/7 * log2(2/7)) = 0.863
蓝色的条件熵 = -(1/2 * log2(1/2) + 1/2 * log2(1/2)) = 1.0
绿色的条件熵 = -(1/1 * log2(1/1) + 0/1 * log2(0/1)) = 0
因此,颜色这个特征的信息增益为:
信息增益 = 1.0 - (7/10 * 0.863 + 2/10 * 1.0 + 1/10 * 0) = 0.395
接下来,我们可以计算颜色这个特征的信息增益率。信息增益率可以通过信息增益除以颜色这个特征的熵来得到:
颜色这个特征的熵 = -(5/10 * log2(5/10) + 3/10 * log2(3/10) + 2/10 * log2(2/10)) = 1.571
信息增益率 = 0.395 / 1.571 = 0.251
现在,我们可以计算基尼系数。基尼系数可以通过以下公式来计算:
基尼系数 = 1 - (正例的概率^2 + 负例的概率^2)
对于颜色这个特征,我们需要计算红色、蓝色和绿色三种情况下的基尼系数:
红色的基尼系数 = 1 - (5/7)^2 - (2/7)^2 = 0.408
蓝色的基尼系数 = 1 - (1/2)^2 - (1/2)^2 = 0.5
绿色的基尼系数 = 1 - 1^2 - 0^2 = 0
因此,颜色这个特征的基尼系数为:
基尼系数 = 7/10 * 0.408 + 2/10 * 0.5 + 1/10 * 0 = 0.314
最后,我们可以计算误分类错误率。误分类错误率可以通过以下公式来计算:
误分类错误率 = min(正例的概率,负例的概率)
对于颜色这个特征,我们需要计算红色、蓝色和绿色三种情况下的误分类错误率:
红色的误分类错误率 = min(2/7, 5/7) = 2/7
蓝色的误分类错误率 = min(1/2, 1/2) = 1/2
绿色的误分类错误率 = min(0, 1) = 0
因此,颜色这个特征的误分类错误率为:
误分类错误率 = 7/10 * 2/7 + 2/10 * 1/2 + 1/10 * 0 = 0.43
综上所述,颜色这个特征的信息增益为0.395,信息增益率为0.251,基尼系数为0.314,误分类错误率为0.43。
原文地址: https://www.cveoy.top/t/topic/fYMv 著作权归作者所有。请勿转载和采集!