Python sklearn 中 CountVectorizer 去除停用词并统计词频
使用 Python 的 sklearn 包中的 CountVectorizer 方法可以方便地去除英文停用词并计算文本的词频分布情况。
可以通过设置参数 stop_words 为英文停用词列表或者自定义停用词列表来去除停用词,然后使用 fit_transform 方法计算文本的词频分布情况。
代码示例:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups
from nltk.corpus import stopwords
# 加载数据集
newsgroups_train = fetch_20newsgroups(subset='train')
# 定义停用词列表
stop_words = stopwords.words('english')
# 创建 CountVectorizer 对象,去除停用词并计算文本的词频分布情况
vectorizer = CountVectorizer(stop_words=stop_words)
X = vectorizer.fit_transform(newsgroups_train.data)
# 输出词频分布情况
print(vectorizer.get_feature_names())
print(X.toarray())
其中,get_feature_names 方法可以获取所有词汇的列表,toarray 方法可以将文本的词频分布情况以 numpy 数组的形式输出。
原文地址: https://www.cveoy.top/t/topic/ov4S 著作权归作者所有。请勿转载和采集!