用tf-idf把文本转成向量的代码设置向量维度
下面是一个使用TF-IDF将文本转化为向量的示例代码,同时设置向量维度为100:
from sklearn.feature_extraction.text import TfidfVectorizer
# 文本数据
corpus = [
"I love coding",
"Coding is fun",
"Coding is my passion"
]
# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer(max_features=100)
# 将文本数据转化为TF-IDF向量
X = vectorizer.fit_transform(corpus)
# 打印向量化的结果
print(X.toarray())
在上述代码中,我们使用了TfidfVectorizer类来进行TF-IDF向量化。max_features参数设置了向量的维度,这里设置为100。fit_transform方法将文本数据转化为TF-IDF向量,并返回一个稀疏矩阵X。最后,我们使用toarray()方法将稀疏矩阵转化为稠密矩阵,并打印出向量化的结果。
请注意,TF-IDF向量化是一种基于单词的方法,因此文本数据需要先进行分词处理。在实际应用中,你可能需要使用更复杂的分词工具或预处理步骤来准备文本数据
原文地址: http://www.cveoy.top/t/topic/iTUi 著作权归作者所有。请勿转载和采集!