CountVectorizer stop_words 参数详解：自定义停用词列表、函数过滤

CountVectorizer 的 stop_words 参数详解：自定义停用词列表、函数过滤

CountVectorizer 是一个常用的文本特征提取工具，它可以将文本数据转换为数值型特征向量。其中，stop_words 参数用于指定停用词列表，可以帮助我们过滤掉一些常见的、意义不大的词语，例如 'the', 'a', 'an' 等。

stop_words 参数可以填写以下内容：

英文停用词列表: 可以使用 scikit-learn 库自带的停用词列表，例如 'english'。
自定义停用词列表: 可以填写一个自定义的停用词列表，例如: ['and', 'the', 'to', 'in', 'of']。
None: 不使用停用词列表，保留所有词汇。
callable: 可以自定义一个函数，用于过滤停用词。该函数接收一个字符串参数，返回一个布尔值。如果返回 True，则该字符串会被过滤掉，否则会保留。

例如，定义一个自定义函数过滤长度小于 3 的词汇：

def my_stop_words(word):
    return len(word) < 3

然后将该函数作为 stop_words 参数的值传入 CountVectorizer 中即可：

vectorizer = CountVectorizer(stop_words=my_stop_words)

通过以上方法，你可以灵活地设置 stop_words 参数，根据不同的文本数据和任务需求，选择最合适的停用词过滤策略，从而提高文本特征提取的效率和准确性。