Python MongoDB 数据分析:评论文本词干化提取
这段代码从 MongoDB 数据库中获取所有评论的文本数据,对文本进行分词、去除标点符号和停用词、提取名词,并对名词进行词干化处理,最终输出处理后的词语列表。
具体步骤如下:
-
连接 MongoDB 数据库,并选择名为'dump'的数据库。
-
从数据库中获取所有评论的文本数据,并转换为 JSON 格式,并使用 NLTK 库的 word_tokenize 函数对文本进行分词,得到 cutword1 列表。
-
创建 interpunctuations 列表,其中包含需要去除的标点符号和其他符号。
-
使用列表推导式,去除 cutword1 中的 interpunctuations 中包含的符号,得到 cutwords2 列表。
-
使用 NLTK 库的 stopwords.words('english') 获取英文停用词,并使用列表推导式去除 cutwords2 中的停用词和长度小于 4 的词语,得到 cutword3 列表。
-
创建 tags 集合,其中包含需要提取的词性标签,使用 NLTK 库的 pos_tag 函数获取 cutword3 中每个词语的词性标签,将词性为名词的词语加入 cutword4 列表。
-
使用 PorterStemmer 算法对 cutword4 中的每个名词进行词干化处理,并将处理后的词语加入 doc_list 列表,最终输出 doc_list 列表。
原文地址: https://www.cveoy.top/t/topic/ol5q 著作权归作者所有。请勿转载和采集!