中文文本分类中的分词技术:jieba分词技术及其应用
本文研究了中文文本分类中的分词技术,其中采用了jieba分词技术。jieba分词技术结合了基于规则和基于统计这两类方法,通过前缀词典进行词图扫描,可以快速构建包含全部可能分词结果的有向无环图。这个图中包含多条分词路径,有向是指全部的路径都始于第一个字、止于最后一个字,无环是指节点之间不构成闭环。基于标注语料,使用动态规划的方法可以找出最大概率路径,并将其作为最终的分词结果。
jieba分词技术分为三种模式:
- 精确模式: 试图将句子最精确地切开,适合于文本分析。
- 全模式: 把句子中所有可以成词的词语都扫描出来,但是不能解决歧义。
- 搜索引擎模式: 在精确模式的基础上,对长词再次进行切分,提高召回率,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。
本实验采用jieba分词技术作为分词工具,通过规则和统计的方法进行分词,基于标注语料,使用动态规划的方法找出最大概率路径作为分词结果。同时,本实验还尝试了jieba分词技术的三种模式,通过实验结果可以发现,不同模式适用于不同场景,可以根据实际需求进行选择。在中文文本分类中,选用合适的分词模式可以提高分类精度,为后续研究提供参考。
原文地址: https://www.cveoy.top/t/topic/m6NA 著作权归作者所有。请勿转载和采集!