对于一个贷款申请客户数据集共有25个样本数据集包含有无支票账户和当前欠款总额两个特征样本的目标标签为高风险或低风险。现准备构造决策树模型利用有无支票账户这个特征为当前节点来对数据集进行划分划分结果如下表: 无支票账户 有支票账户高风险 8 2低风险 2 13求按有无支票账户划分之后的数据集的总基尼系数要求写出计算过程。
首先,计算初始数据集的基尼系数:
总样本数:25
高风险样本数:10
低风险样本数:15
基尼系数 = 1 - (10/25)^2 - (15/25)^2 ≈ 0.48
接下来,计算按“有无支票账户”特征划分后的基尼系数:
对于“无支票账户”:
总样本数:10
高风险样本数:8
低风险样本数:2
基尼系数 = 1 - (8/10)^2 - (2/10)^2 = 0.32
对于“有支票账户”:
总样本数:15
高风险样本数:2
低风险样本数:13
基尼系数 = 1 - (2/15)^2 - (13/15)^2 ≈ 0.25
按“有无支票账户”特征划分后的基尼系数为:
(10/25)*0.32 + (15/25)*0.25 ≈ 0.28
因此,按“有无支票账户”划分之后的数据集的总基尼系数为约0.28。
原文地址: https://www.cveoy.top/t/topic/g9py 著作权归作者所有。请勿转载和采集!