随机森林特征重要性进行特征筛选公式
随机森林的特征重要性是通过计算每个特征在随机森林中的平均信息增益或平均准确率来衡量的。特征重要性的计算公式可以有多种形式,以下是两种常见的计算公式:
-
平均信息增益(Mean Decrease Impurity): 特征重要性 = 平均信息增益 - 权重惩罚
其中,平均信息增益是指在随机森林中,每个特征被用来划分数据集时所带来的信息增益的平均值。权重惩罚是为了减小特征重要性受到数据集大小的影响而引入的一个惩罚项,一般取值为特征在数据集中的样本数目。
-
平均准确率(Mean Decrease Accuracy): 特征重要性 = 平均准确率 - 权重惩罚
平均准确率是指在随机森林中,每个特征被用来划分数据集时所带来的准确率的平均值。同样,权重惩罚是为了减小特征重要性受到数据集大小的影响而引入的一个惩罚项,一般取值为特征在数据集中的样本数目。
需要注意的是,不同的随机森林实现工具可能采用不同的特征重要性计算方法,具体的计算公式可能会有所差异。
原文地址: https://www.cveoy.top/t/topic/in9L 著作权归作者所有。请勿转载和采集!