python 两篇万字文档内容相似度计算

要计算两篇万字文档的相似度，可以使用自然语言处理技术和文本相似度算法。下面是一个简单的示例，使用Python中的gensim库和余弦相似度算法来计算两篇文档的相似度。

首先，安装gensim库：

pip install gensim

然后，使用以下代码计算两篇文档的相似度：

from gensim import corpora, models, similarities
from collections import defaultdict
from pprint import pprint

# 定义两篇文档
doc1 = "这是第一篇文档的内容。"
doc2 = "这是第二篇文档的内容。"

# 分词
texts = [doc1.split(), doc2.split()]

# 构建词典
frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
texts = [[token for token in text if frequency[token] > 0] for text in texts]
dictionary = corpora.Dictionary(texts)

# 将文档转换为向量表示
corpus = [dictionary.doc2bow(text) for text in texts]

# 计算TF-IDF值
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]

# 计算相似度
index = similarities.MatrixSimilarity(corpus_tfidf)
sims = index[corpus_tfidf]

# 打印相似度矩阵
pprint(list(sims))

以上代码将输出两篇文档的相似度矩阵，矩阵中的每个值表示对应文档之间的相似度。相似度值越大，表示两篇文档越相似。