在中文文本分类中,文本预处理阶段至关重要。为了获取高质量的语料库,我们首先使用Python网络爬虫爬取国内物流平台上的物流文章。随后,对文本进行预处理,丢弃无意义的字符。在进行分词时,我们引入物流领域的专业词典,以提升分词准确率。同时,还引入网上开源的停用词表对文本进行预处理。最后,将文本表示为Word2Vec向量。

在种子词集扩展阶段,我们直接使用LineSentence在Word2Vec模型中进行词向量训练。这种方法可以避免前期构建语料库的复杂性,并得到全量语料库。接着,输入物流相关的种子词汇,对其进行扩展。得到的相似词汇再由人工进行筛选,最终得到100个物流相关的词汇。这些词汇将用于对文本数据进行过滤。

在关键词抽取阶段,我们首先进行关键词特征权重选择。我们考虑了词频-逆文档频率、长度特征、位置特征、词跨度特征和标题特征等五种词汇特征。将这些特征组成综合权重公式模型,并加入抽取效果评价指标。这些指标包括抽取效果的准确率、关键词的召回率和综合评价指标。我们采用平均准确率指标MAP和归一化折损累计增益NDCG作为抽取效果的关键词排序指标。

通过上述步骤,我们能够获得高质量的语料库和关键词,并用它们对文本数据进行分类。这些技术和方法对于提升中文文本分类的准确率和效率非常重要。

中文文本分类研究:基于物流领域语料库的关键词提取与模型训练

原文地址: https://www.cveoy.top/t/topic/mZDC 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录