自1973年Salton提出TFIDF算法以来,该算法一直在文本分类领域扮演着重要角色。然而,尽管该算法在实践中简单易实现,但仍存在一些不足之处。一些文献通过修改IDF计算方法来处理特征项的类别分布情况,增加了同类别下频繁出现的单词的权重。另一些文献提出了类内分布因子以及类间分布因子来替代IDF。还有一些文献引入了取常用对数的卡方统计来抑制TFIDF忽略特征项在类间分布的影响,以及类内信息熵来减弱TFIDF忽略特征项在类内的影响。另外,一些文献用词条在类内与类间的文档占比改进了IDF算法,提高了文档分类的准确率和召回率。还有一些研究结合特征项在类间和类内信息分布熵来调整TFIDF,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷。

TFIDF算法在文本分类中的应用与改进

原文地址: https://www.cveoy.top/t/topic/oWV8 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录