Python sklearn 中 CountVectorizer 去除停用词并统计词频

使用 Python 的 sklearn 包中的 CountVectorizer 方法可以方便地去除英文停用词并计算文本的词频分布情况。

可以通过设置参数 stop_words 为英文停用词列表或者自定义停用词列表来去除停用词，然后使用 fit_transform 方法计算文本的词频分布情况。

代码示例:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups
from nltk.corpus import stopwords

# 加载数据集
newsgroups_train = fetch_20newsgroups(subset='train')

# 定义停用词列表
stop_words = stopwords.words('english')

# 创建 CountVectorizer 对象，去除停用词并计算文本的词频分布情况
vectorizer = CountVectorizer(stop_words=stop_words)
X = vectorizer.fit_transform(newsgroups_train.data)

# 输出词频分布情况
print(vectorizer.get_feature_names())
print(X.toarray())

其中，get_feature_names 方法可以获取所有词汇的列表，toarray 方法可以将文本的词频分布情况以 numpy 数组的形式输出。

Python sklearn 中 CountVectorizer 去除停用词并统计词频