中文文本分类中的分词技术：jieba分词技术及其应用

本文研究了中文文本分类中的分词技术，其中采用了jieba分词技术。jieba分词技术结合了基于规则和基于统计这两类方法，通过前缀词典进行词图扫描，可以快速构建包含全部可能分词结果的有向无环图。这个图中包含多条分词路径，有向是指全部的路径都始于第一个字、止于最后一个字，无环是指节点之间不构成闭环。基于标注语料，使用动态规划的方法可以找出最大概率路径，并将其作为最终的分词结果。

jieba分词技术分为三种模式：

精确模式: 试图将句子最精确地切开，适合于文本分析。
全模式: 把句子中所有可以成词的词语都扫描出来，但是不能解决歧义。
搜索引擎模式: 在精确模式的基础上，对长词再次进行切分，提高召回率，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。

本实验采用jieba分词技术作为分词工具，通过规则和统计的方法进行分词，基于标注语料，使用动态规划的方法找出最大概率路径作为分词结果。同时，本实验还尝试了jieba分词技术的三种模式，通过实验结果可以发现，不同模式适用于不同场景，可以根据实际需求进行选择。在中文文本分类中，选用合适的分词模式可以提高分类精度，为后续研究提供参考。