python 文档内容相似度计算

在Python中，可以使用各种方法来计算文档内容的相似度。下面介绍几种常用的方法：

余弦相似度（Cosine Similarity）：计算两个文档向量之间的夹角余弦值。可以使用scikit-learn库中的cosine_similarity函数来计算。首先，将文档转换为向量表示，可以使用词袋模型（Bag of Words）或者TF-IDF模型。然后，使用cosine_similarity函数计算两个向量的相似度。

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer

# 文档内容
documents = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

# 使用词袋模型将文档转换为向量表示
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)

# 计算相似度矩阵
similarity_matrix = cosine_similarity(X)

# 打印相似度矩阵
print(similarity_matrix)

Jaccard相似度（Jaccard Similarity）：计算两个文档集合的交集与并集的比值。可以使用scikit-learn库中的jaccard_score函数来计算。首先，将文档转换为词集合表示。然后，使用jaccard_score函数计算两个集合的相似度。

from sklearn.metrics import jaccard_score
from sklearn.feature_extraction.text import CountVectorizer

# 文档内容
documents = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

# 使用词袋模型将文档转换为词集合表示
vectorizer = CountVectorizer(binary=True)
X = vectorizer.fit_transform(documents)

# 计算相似度矩阵
similarity_matrix = jaccard_score(X[0].toarray(), X[1].toarray())

# 打印相似度矩阵
print(similarity_matrix)

编辑距离（Edit Distance）：计算将一个文档转换为另一个文档所需的最小编辑操作次数。可以使用Python内置的difflib库中的SequenceMatcher类来计算。

from difflib import SequenceMatcher

# 文档内容
document1 = "This is the first document."
document2 = "This document is the second document."

# 计算编辑距离
edit_distance = SequenceMatcher(None, document1, document2).ratio()

# 打印编辑距离
print(edit_distance)

以上是几种常用的文档内容相似度计算方法，具体选择哪种方法取决于具体的应用场景和需求。