#!usrbinpython # -- codingutf-8 -- import jiebaosre from gensim import corpora models similarities 创建停用词列表 def stopwordslist stopwords = linestrip for line in openstopwordstxtencoding=UTF-8readl
这段代码功能为将中文文本进行分词并去除停用词,使用了jieba和gensim两个库。具体含义如下:
-
定义stopwordslist函数,读取停用词文件并返回停用词列表。
-
定义seg_depart函数,将一个句子进行中文分词并去除停用词,返回分词后的字符串。
-
如果文档还未进行分词,就进行分词。具体步骤如下:
(1)给出文档路径,读取未分词的文本文件。
(2)把每行文本中非汉字的字符全部去掉,提取出文本内容。
(3)调用seg_depart函数进行分词和去停用词操作。
(4)将分词后的结果写入一个新的文本文件中。
- 最后输出成功信息。
原文地址: https://www.cveoy.top/t/topic/bnCw 著作权归作者所有。请勿转载和采集!