在中文文本分类中,文本预处理阶段是非常重要的。为了获得高质量的语料库,我们首先使用Python网络爬虫爬取国内物流上的物流文章。接着,我们对文本进行预处理,丢弃无意义的字符。在进行分词时,我们使用物流领域的词典,以提高分词准确率。同时,我们还引入网上开源的停用词表对文本进行预处理。最后,我们将文本表示为Word2Vec。

在种子词集扩展阶段,我们直接使用LineSentence在Word2Vec中进行词向量训练。这样做可以避免前期构建语料时的复杂性问题,并得到全量语料库。接着,我们输入物流相关的种子词汇,对其进行扩展。得到的相似词汇再由人工进行筛选,最终得到100个物流相关的词汇。这些词汇将用于对文本数据进行过滤。

在关键词抽取阶段,我们首先进行关键词特征权重选择。我们考虑了词频-逆文档频率、长度特征、位置特征、词跨度特征和标题特征等五种词汇特征。我们将这些特征组成综合权重公式模型,并加入抽取效果评价指标。这些指标包括抽取效果的准确率、关键词的召回率和综合评价指标。我们采用平均准确率指标MAP和归一化折损累计增益NDCG作为抽取效果的关键词排序指标。

通过上述步骤,我们能够获得高质量的语料库和关键词,并用它们对文本数据进行分类。这些技术和方法对于提高中文文本分类的准确率和效率非常重要。


原文地址: https://www.cveoy.top/t/topic/bvOb 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录