CountVectorizer stop_words 参数详解:自定义停用词列表、函数过滤
CountVectorizer 的 stop_words 参数详解:自定义停用词列表、函数过滤
CountVectorizer 是一个常用的文本特征提取工具,它可以将文本数据转换为数值型特征向量。其中,stop_words 参数用于指定停用词列表,可以帮助我们过滤掉一些常见的、意义不大的词语,例如 'the', 'a', 'an' 等。
stop_words 参数可以填写以下内容:
-
英文停用词列表: 可以使用 scikit-learn 库自带的停用词列表,例如 'english'。
-
自定义停用词列表: 可以填写一个自定义的停用词列表,例如: ['and', 'the', 'to', 'in', 'of']。
-
None: 不使用停用词列表,保留所有词汇。
-
callable: 可以自定义一个函数,用于过滤停用词。该函数接收一个字符串参数,返回一个布尔值。如果返回 True,则该字符串会被过滤掉,否则会保留。
例如,定义一个自定义函数过滤长度小于 3 的词汇:
def my_stop_words(word):
return len(word) < 3
然后将该函数作为 stop_words 参数的值传入 CountVectorizer 中即可:
vectorizer = CountVectorizer(stop_words=my_stop_words)
通过以上方法,你可以灵活地设置 stop_words 参数,根据不同的文本数据和任务需求,选择最合适的停用词过滤策略,从而提高文本特征提取的效率和准确性。
原文地址: https://www.cveoy.top/t/topic/mZEK 著作权归作者所有。请勿转载和采集!