以下是一个简单的tf-idf中文文本向量化代码示例,使用jieba分词和sklearn库实现:

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

# 读取文本数据
with open('text.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# 分词
words = jieba.lcut(text)

# 去除停用词
stopwords = ['的', '了', '是', '在', '我', '有', '和', '就', '不', '人', '都', '一', '一个', '上', '也', '很', '到', '说', '要', '去', '你', '会', '着', '没有', '看', '好', '自己', '这']
words = [word for word in words if word not in stopwords]

# 向量化
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform([' '.join(words)])

# 输出结果
print(tfidf_matrix.toarray())

这个示例代码将文本数据读入后使用jieba分词,然后去除停用词,最后使用sklearn库中的TfidfVectorizer类进行向量化。输出结果为tf-idf值的向量。

tf-idf中文文本向量化代码

原文地址: https://www.cveoy.top/t/topic/bPL0 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录