jieba 分词:添加自定义词语 (例如 '000号' 和 '00号')
jieba 分词:添加自定义词语 (例如 '000号' 和 '00号')
在使用 jieba 分词库时,有时需要添加一些新的词语,例如 '000号' 和 '00号',以提升分词的准确性。可以通过以下两种方式添加新词:
1. 使用 add_word() 方法添加单个词语
import jieba
jieba.add_word('000号')
jieba.add_word('00号')
address = '北京市海淀区中关村大街100号'
words = jieba.cut(address)
print(list(words))
输出结果:
['北京市', '海淀区', '中关村大街', '100号']
2. 使用 load_userdict() 方法加载自定义词典文件
import jieba
jieba.load_userdict('my_dict.txt')
address = '北京市海淀区中关村大街100号'
words = jieba.cut(address)
print(list(words))
其中,my_dict.txt 文件内容如下:
000号
00号
输出结果同上。
注意: 添加新词可能会影响分词的准确性,请谨慎使用。
原文地址: https://www.cveoy.top/t/topic/f2gV 著作权归作者所有。请勿转载和采集!