TF-IDF 文档向量化及相似度计算：Python 实践

a) 首先，我们需要计算每个文档中每个词的tf-idf值。tf-idf的计算公式如下：\n\n\t\t\t\ttf-idf = tf * idf\n\n其中，tf表示词频（词在文档中的出现次数），idf表示逆文档频率（指词在所有文档中出现的频率的倒数）。\n\n假设我们的文档集合中一共有N个文档，词汇表中一共有M个词。那么，我们可以用一个N*M的矩阵来表示所有文档的tf-idf向量。\n\n对于每个文档，我们可以先计算tf值，然后再计算idf值，最后将两者相乘即可得到tf-idf值。\n\n下面是具体的计算步骤：\n\n1. 构建词汇表：\n我们将所有文档中出现的词都加入到词汇表中，并去重。在这个例子中，词汇表为["Hello", "world", "python"]。\n\n2. 计算词频：\n对于每个文档，我们计算每个词在文档中的出现次数。在这个例子中，词频矩阵为：\n\n\n[[1, 1, 0],\n [1, 0, 1],\n [1, 1, 1],\n [1, 0, 0]]\n\n\n3. 计算逆文档频率：\n对于每个词，我们计算它在所有文档中出现的频率的倒数。在这个例子中，逆文档频率矩阵为：\n\n\n[log(4/3), log(4/2), log(4/3)]\n\n\n4. 计算tf-idf：\n将词频矩阵和逆文档频率矩阵相乘，得到tf-idf矩阵：\n\n\n[[log(4/3), log(4/2), 0],\n [log(4/3), 0, log(4/3)],\n [log(4/3), log(4/2), log(4/3)],\n [log(4/3), 0, 0]]\n\n\n所以，向量化的矩阵的维度为4x3。\n\n下面是用Python代码验证这个计算过程：\n\npython\nfrom sklearn.feature_extraction.text import TfidfVectorizer\n\ntrain = ["Hello world","Hello python Hello","world python Hello","Hello"]\n\n# 创建一个TfidfVectorizer对象\nvectorizer = TfidfVectorizer()\n\n# 使用TfidfVectorizer对象对文档进行向量化\ntfidf_matrix = vectorizer.fit_transform(train)\n\n# 输出向量化的矩阵的维度\nprint(tfidf_matrix.shape)\n\n\n输出结果为(4, 3)，与推导的结果一致。\n\nb) 调用pairwise_distances函数计算四篇文档之间的相似度。相似度矩阵的维度为4x4。\n\n下面是用Python代码计算相似度矩阵的维度：\n\npython\nfrom sklearn.metrics.pairwise import pairwise_distances\n\n# 计算相似度矩阵\nsimilarity_matrix = pairwise_distances(tfidf_matrix, metric='cosine')\n\n# 输出相似度矩阵的维度\nprint(similarity_matrix.shape)\n\n\n输出结果为(4, 4)，与要求一致。