这段代码功能为将中文文本进行分词并去除停用词,使用了jieba和gensim两个库。具体含义如下:

  1. 定义stopwordslist函数,读取停用词文件并返回停用词列表。

  2. 定义seg_depart函数,将一个句子进行中文分词并去除停用词,返回分词后的字符串。

  3. 如果文档还未进行分词,就进行分词。具体步骤如下:

(1)给出文档路径,读取未分词的文本文件。

(2)把每行文本中非汉字的字符全部去掉,提取出文本内容。

(3)调用seg_depart函数进行分词和去停用词操作。

(4)将分词后的结果写入一个新的文本文件中。

  1. 最后输出成功信息。
#!usrbinpython # -- codingutf-8 -- import jiebaosre from gensim import corpora models similarities 创建停用词列表 def stopwordslist stopwords = linestrip for line in openstopwordstxtencoding=UTF-8readl

原文地址: https://www.cveoy.top/t/topic/bnCw 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录