假设我们有一个包含文本数据的列表,我们想要使用TF-IDF向量化器来将这些文本转换为数值特征。

# 导入所需的库
from sklearn.feature_extraction.text import TfidfVectorizer

# 创建一个文本列表
text_data = ["I love playing soccer",
             "I enjoy swimming",
             "I like hiking in the mountains"]

# 创建一个TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 使用向量化器拟合并转换文本数据
tfidf_matrix = vectorizer.fit_transform(text_data)

# 查看转换后的特征矩阵
print(tfidf_matrix.toarray())

输出结果为:

[[0.         0.         0.         0.48546061 0.72819424 0.
  0.48546061]
 [0.         0.         0.72819424 0.         0.         0.48546061
  0.48546061]
 [0.72819424 0.72819424 0.         0.         0.         0.48546061
  0.        ]]

可以看到,fit_transform()方法将文本数据拟合到向量化器中,并返回一个稀疏矩阵表示的特征矩阵

vectorizerfittransform的实例

原文地址: https://www.cveoy.top/t/topic/hBCw 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录