信息增益、信息增益率、基尼系数和误分类错误率计算示例

假设有一个数据集，其中包含10个样本，每个样本有两个特征：颜色和形状。其中5个样本是红色的圆形，2个样本是红色的方形，1个样本是蓝色的圆形，1个样本是蓝色的方形，1个样本是绿色的圆形。现在我们想要使用颜色和形状这两个特征来预测样本的类别（0表示负例，1表示正例）。

首先，我们需要计算颜色这个特征的信息增益。我们可以使用以下公式来计算：

信息增益 = 父节点的熵 - 条件熵

父节点的熵可以通过计算所有样本的类别分布来得到：

父节点的熵 = - (5/10 * log2(5/10) + 5/10 * log2(5/10)) = 1.0

对于颜色这个特征，我们需要计算红色、蓝色和绿色三种情况下的条件熵：

红色的条件熵 = -(5/7 * log2(5/7) + 2/7 * log2(2/7)) = 0.863

蓝色的条件熵 = -(1/2 * log2(1/2) + 1/2 * log2(1/2)) = 1.0

绿色的条件熵 = -(1/1 * log2(1/1) + 0/1 * log2(0/1)) = 0

因此，颜色这个特征的信息增益为：

信息增益 = 1.0 - (7/10 * 0.863 + 2/10 * 1.0 + 1/10 * 0) = 0.395

接下来，我们可以计算颜色这个特征的信息增益率。信息增益率可以通过信息增益除以颜色这个特征的熵来得到：

颜色这个特征的熵 = -(5/10 * log2(5/10) + 3/10 * log2(3/10) + 2/10 * log2(2/10)) = 1.571

信息增益率 = 0.395 / 1.571 = 0.251

现在，我们可以计算基尼系数。基尼系数可以通过以下公式来计算：

基尼系数 = 1 - (正例的概率^2 + 负例的概率^2)

对于颜色这个特征，我们需要计算红色、蓝色和绿色三种情况下的基尼系数：

红色的基尼系数 = 1 - (5/7)^2 - (2/7)^2 = 0.408

蓝色的基尼系数 = 1 - (1/2)^2 - (1/2)^2 = 0.5

绿色的基尼系数 = 1 - 1^2 - 0^2 = 0

因此，颜色这个特征的基尼系数为：

基尼系数 = 7/10 * 0.408 + 2/10 * 0.5 + 1/10 * 0 = 0.314

最后，我们可以计算误分类错误率。误分类错误率可以通过以下公式来计算：

误分类错误率 = min(正例的概率，负例的概率)

对于颜色这个特征，我们需要计算红色、蓝色和绿色三种情况下的误分类错误率：

红色的误分类错误率 = min(2/7, 5/7) = 2/7

蓝色的误分类错误率 = min(1/2, 1/2) = 1/2

绿色的误分类错误率 = min(0, 1) = 0

因此，颜色这个特征的误分类错误率为：

误分类错误率 = 7/10 * 2/7 + 2/10 * 1/2 + 1/10 * 0 = 0.43

综上所述，颜色这个特征的信息增益为0.395，信息增益率为0.251，基尼系数为0.314，误分类错误率为0.43。