Python中的TfidfVectorizer的参数
TfidfVectorizer是一个用于将文本集合转换为TF-IDF特征向量的类。下面是TfidfVectorizer的一些常见参数:
- stop_words:指定要从文本中删除的停用词列表。默认为None,即不删除停用词。
- lowercase:指定是否将文本转换为小写。默认为True。
- ngram_range:指定要提取的n-gram范围。默认为(1, 1),表示只提取单个词。可以设置为(1, 2)表示提取单个词和二元组。
- max_df:指定文档频率的阈值,超过该阈值的词将被忽略。默认为1.0,即忽略所有出现在所有文档中的词。
- min_df:指定文档频率的阈值,低于该阈值的词将被忽略。默认为1,即只考虑在至少一个文档中出现的词。
- max_features:指定要提取的最大特征数。默认为None,即提取所有特征。可以设置为整数值,表示只提取前n个特征。
原文地址: https://www.cveoy.top/t/topic/eCg3 著作权归作者所有。请勿转载和采集!