jieba 分词:添加自定义词语 (例如 '000号' 和 '00号')

在使用 jieba 分词库时,有时需要添加一些新的词语,例如 '000号' 和 '00号',以提升分词的准确性。可以通过以下两种方式添加新词:

1. 使用 add_word() 方法添加单个词语

import jieba

jieba.add_word('000号')
jieba.add_word('00号')

address = '北京市海淀区中关村大街100号'
words = jieba.cut(address)
print(list(words))

输出结果:

['北京市', '海淀区', '中关村大街', '100号']

2. 使用 load_userdict() 方法加载自定义词典文件

import jieba

jieba.load_userdict('my_dict.txt')

address = '北京市海淀区中关村大街100号'
words = jieba.cut(address)
print(list(words))

其中,my_dict.txt 文件内容如下:

000号
00号

输出结果同上。

注意: 添加新词可能会影响分词的准确性,请谨慎使用。

jieba 分词:添加自定义词语 (例如 '000号' 和 '00号')

原文地址: https://www.cveoy.top/t/topic/f2gV 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录