Python TfidfVectorizer 参数详解:提升文本特征提取效率
TfidfVectorizer 是一个用于将文本集合转换为 TF-IDF 特征向量的类。下面是 TfidfVectorizer 的一些常见参数:
- 'stop_words':指定要从文本中删除的停用词列表。默认为 None,即不删除停用词。
- 'lowercase':指定是否将文本转换为小写。默认为 True。
- 'ngram_range':指定要提取的 n-gram 范围。默认为 (1, 1),表示只提取单个词。可以设置为 (1, 2) 表示提取单个词和二元组。
- 'max_df':指定文档频率的阈值,超过该阈值的词将被忽略。默认为 1.0,即忽略所有出现在所有文档中的词。
- 'min_df':指定文档频率的阈值,低于该阈值的词将被忽略。默认为 1,即只考虑在至少一个文档中出现的词。
- 'max_features':指定要提取的最大特征数。默认为 None,即提取所有特征。可以设置为整数值,表示只提取前 n 个特征。
原文地址: https://www.cveoy.top/t/topic/nTGO 著作权归作者所有。请勿转载和采集!