n_features = 1000 #提取1000个特征词语 tf_vectorizer = CountVectorizerstrip_accents = unicode max_features=n_features stop_words=english
这段代码没有明显的错误,但是可以进行一些改进:
-
可以使用TfidfVectorizer来替代CountVectorizer,这样可以更好地考虑词语的重要性。
-
可以使用GridSearchCV来寻找最优的参数组合,例如max_df和min_df的取值。
-
可以使用nltk等自然语言处理工具来进行更好的分词处理。
原文地址: https://www.cveoy.top/t/topic/bjNS 著作权归作者所有。请勿转载和采集!