python 两篇万字文档内容相似度计算
要计算两篇万字文档的相似度,可以使用自然语言处理技术和文本相似度算法。下面是一个简单的示例,使用Python中的gensim库和余弦相似度算法来计算两篇文档的相似度。
首先,安装gensim库:
pip install gensim
然后,使用以下代码计算两篇文档的相似度:
from gensim import corpora, models, similarities
from collections import defaultdict
from pprint import pprint
# 定义两篇文档
doc1 = "这是第一篇文档的内容。"
doc2 = "这是第二篇文档的内容。"
# 分词
texts = [doc1.split(), doc2.split()]
# 构建词典
frequency = defaultdict(int)
for text in texts:
for token in text:
frequency[token] += 1
texts = [[token for token in text if frequency[token] > 0] for text in texts]
dictionary = corpora.Dictionary(texts)
# 将文档转换为向量表示
corpus = [dictionary.doc2bow(text) for text in texts]
# 计算TF-IDF值
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
# 计算相似度
index = similarities.MatrixSimilarity(corpus_tfidf)
sims = index[corpus_tfidf]
# 打印相似度矩阵
pprint(list(sims))
以上代码将输出两篇文档的相似度矩阵,矩阵中的每个值表示对应文档之间的相似度。相似度值越大,表示两篇文档越相似。
原文地址: https://www.cveoy.top/t/topic/hN80 著作权归作者所有。请勿转载和采集!