Python MongoDB 数据分析：评论文本词干化提取

这段代码从 MongoDB 数据库中获取所有评论的文本数据，对文本进行分词、去除标点符号和停用词、提取名词，并对名词进行词干化处理，最终输出处理后的词语列表。

具体步骤如下：

连接 MongoDB 数据库，并选择名为'dump'的数据库。
从数据库中获取所有评论的文本数据，并转换为 JSON 格式，并使用 NLTK 库的 word_tokenize 函数对文本进行分词，得到 cutword1 列表。
创建 interpunctuations 列表，其中包含需要去除的标点符号和其他符号。
使用列表推导式，去除 cutword1 中的 interpunctuations 中包含的符号，得到 cutwords2 列表。
使用 NLTK 库的 stopwords.words('english') 获取英文停用词，并使用列表推导式去除 cutwords2 中的停用词和长度小于 4 的词语，得到 cutword3 列表。
创建 tags 集合，其中包含需要提取的词性标签，使用 NLTK 库的 pos_tag 函数获取 cutword3 中每个词语的词性标签，将词性为名词的词语加入 cutword4 列表。
使用 PorterStemmer 算法对 cutword4 中的每个名词进行词干化处理，并将处理后的词语加入 doc_list 列表，最终输出 doc_list 列表。