假设有一个数据集,其中包含10个样本,每个样本有两个特征:颜色和形状。其中5个样本是红色的圆形,2个样本是红色的方形,1个样本是蓝色的圆形,1个样本是蓝色的方形,1个样本是绿色的圆形。现在我们想要使用颜色和形状这两个特征来预测样本的类别(0表示负例,1表示正例)。

首先,我们需要计算颜色这个特征的信息增益。我们可以使用以下公式来计算:

信息增益 = 父节点的熵 - 条件熵

父节点的熵可以通过计算所有样本的类别分布来得到:

父节点的熵 = - (5/10 * log2(5/10) + 5/10 * log2(5/10)) = 1.0

对于颜色这个特征,我们需要计算红色、蓝色和绿色三种情况下的条件熵:

红色的条件熵 = -(5/7 * log2(5/7) + 2/7 * log2(2/7)) = 0.863

蓝色的条件熵 = -(1/2 * log2(1/2) + 1/2 * log2(1/2)) = 1.0

绿色的条件熵 = -(1/1 * log2(1/1) + 0/1 * log2(0/1)) = 0

因此,颜色这个特征的信息增益为:

信息增益 = 1.0 - (7/10 * 0.863 + 2/10 * 1.0 + 1/10 * 0) = 0.395

接下来,我们可以计算颜色这个特征的信息增益率。信息增益率可以通过信息增益除以颜色这个特征的熵来得到:

颜色这个特征的熵 = -(5/10 * log2(5/10) + 3/10 * log2(3/10) + 2/10 * log2(2/10)) = 1.571

信息增益率 = 0.395 / 1.571 = 0.251

现在,我们可以计算基尼系数。基尼系数可以通过以下公式来计算:

基尼系数 = 1 - (正例的概率^2 + 负例的概率^2)

对于颜色这个特征,我们需要计算红色、蓝色和绿色三种情况下的基尼系数:

红色的基尼系数 = 1 - (5/7)^2 - (2/7)^2 = 0.408

蓝色的基尼系数 = 1 - (1/2)^2 - (1/2)^2 = 0.5

绿色的基尼系数 = 1 - 1^2 - 0^2 = 0

因此,颜色这个特征的基尼系数为:

基尼系数 = 7/10 * 0.408 + 2/10 * 0.5 + 1/10 * 0 = 0.314

最后,我们可以计算误分类错误率。误分类错误率可以通过以下公式来计算:

误分类错误率 = min(正例的概率,负例的概率)

对于颜色这个特征,我们需要计算红色、蓝色和绿色三种情况下的误分类错误率:

红色的误分类错误率 = min(2/7, 5/7) = 2/7

蓝色的误分类错误率 = min(1/2, 1/2) = 1/2

绿色的误分类错误率 = min(0, 1) = 0

因此,颜色这个特征的误分类错误率为:

误分类错误率 = 7/10 * 2/7 + 2/10 * 1/2 + 1/10 * 0 = 0.43

综上所述,颜色这个特征的信息增益为0.395,信息增益率为0.251,基尼系数为0.314,误分类错误率为0.43。

信息增益、信息增益率、基尼系数和误分类错误率计算示例

原文地址: https://www.cveoy.top/t/topic/fYMv 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录