不平衡数据在生活应用中非常常见通常会对分类器的分类性能下降。本文提出了一种基于标签传播与重采样的不平衡数据分类方法。首先为了丰富少数类的样本分布我们使用标签传播算法为测试集数据赋予伪标签。然后将测试集中伪标签为正例的样本与训练集样本组成新的训练集使用SMOTE-ENN进行重采样。最后使用重采样后的数据集训练分类器。实验使用了KEEL的10个数据集进行验证结果表明我们的方法对不平衡数据的分类性能在A
在生活应用中,不平衡数据是非常常见的。由于少数类样本数量较少,传统的分类器在处理不平衡数据时容易出现分类性能下降的问题。为了解决这个问题,本文提出了一种基于标签传播与重采样的不平衡数据分类方法。
首先,我们使用标签传播算法为测试集数据赋予伪标签。标签传播算法是一种半监督学习方法,可以利用已有的标记样本来推断未标记样本的类别标签。通过为测试集数据赋予伪标签,可以丰富少数类的样本分布。
然后,我们将测试集中伪标签为正例的样本与训练集样本组成新的训练集。为了进一步平衡数据集,我们使用SMOTE-ENN算法进行重采样。SMOTE-ENN算法首先使用SMOTE算法生成合成的少数类样本,然后使用ENN算法删除多数类样本。通过重采样,可以增加少数类样本的数量,从而平衡数据集。
最后,我们使用重采样后的数据集来训练分类器。实验使用了KEEL的10个数据集进行验证,结果表明,我们的方法在AUC与G-mean指标上都优于其他采样方法。这表明我们的方法可以有效地提高不平衡数据的分类性能。
总之,本文提出的基于标签传播与重采样的不平衡数据分类方法可以在生活应用中应对不平衡数据的分类问题,具有较好的分类性能
原文地址: https://www.cveoy.top/t/topic/hPD8 著作权归作者所有。请勿转载和采集!