首先,计算初始数据集的基尼系数:

总样本数:25

高风险样本数:10

低风险样本数:15

基尼系数 = 1 - (10/25)^2 - (15/25)^2 ≈ 0.48

接下来,计算按“有无支票账户”特征划分后的基尼系数:

对于“无支票账户”:

总样本数:10

高风险样本数:8

低风险样本数:2

基尼系数 = 1 - (8/10)^2 - (2/10)^2 = 0.32

对于“有支票账户”:

总样本数:15

高风险样本数:2

低风险样本数:13

基尼系数 = 1 - (2/15)^2 - (13/15)^2 ≈ 0.25

按“有无支票账户”特征划分后的基尼系数为:

(10/25)*0.32 + (15/25)*0.25 ≈ 0.28

因此,按“有无支票账户”划分之后的数据集的总基尼系数为约0.28。


原文地址: https://www.cveoy.top/t/topic/g9py 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录