Python提取两篇文档相似内容：使用NLTK和Gensim库

想要比较两篇文档并提取其中的相似内容？本文将介绍如何使用Python的自然语言处理库NLTK (Natural Language Toolkit) 和文本相似度计算库Gensim轻松实现。

1. 安装必要的库

首先，确保你的Python环境中安装了NLTK和Gensim库。你可以使用pip轻松安装：

pip install nltk
pip install gensim

2. 下载NLTK停用词

NLTK库需要下载停用词数据才能进行文本预处理。运行以下代码下载停用词：

import nltk
nltk.download('stopwords')

3. Python代码实现

以下是完整的Python代码，用于提取两篇文档的相似内容：

import nltk
from nltk.corpus import stopwords
from gensim import corpora, models, similarities

# 加载停用词
stop_words = set(stopwords.words('english'))

def preprocess(text):
    # 分词
    tokens = nltk.word_tokenize(text.lower())
    # 去除停用词和非字母字符
    tokens = [token for token in tokens if token.isalpha() and token not in stop_words]
    # 词干化
    stemmer = nltk.stem.PorterStemmer()
    tokens = [stemmer.stem(token) for token in tokens]
    return tokens

# 读取文件内容
with open('file1.txt', 'r') as file:
    file1_content = file.read()

with open('file2.txt', 'r') as file:
    file2_content = file.read()

# 预处理文件内容
file1_tokens = preprocess(file1_content)
file2_tokens = preprocess(file2_content)

# 创建语料库
corpus = [file1_tokens, file2_tokens]

# 创建词袋模型
dictionary = corpora.Dictionary(corpus)

# 将语料转换为词袋表示
corpus_bow = [dictionary.doc2bow(tokens) for tokens in corpus]

# 计算TF-IDF值
tfidf = models.TfidfModel(corpus_bow)
corpus_tfidf = tfidf[corpus_bow]

# 创建相似度索引
index = similarities.MatrixSimilarity(corpus_tfidf)

# 计算两篇文件的相似度
similarity = index[corpus_tfidf[0]][1]
print('相似度：', similarity)

4. 代码解释

预处理: 代码首先对文本进行预处理，包括分词、去除停用词和词干化。
创建语料库: 将预处理后的文档列表构建成Gensim语料库。
创建词袋模型: 使用Gensim的Dictionary类创建词袋模型，将每个词映射到唯一的ID。
计算TF-IDF: 使用Gensim的TfidfModel计算每个词的TF-IDF值，用于衡量词语在文档中的重要性。
创建相似度索引: 使用Gensim的MatrixSimilarity类创建相似度索引，用于快速计算文档之间的相似度。
计算相似度: 使用索引计算两篇文档的相似度得分。

5. 总结

通过以上步骤，你可以使用Python的NLTK和Gensim库轻松地提取两篇文档的相似内容。这段代码提供了一个基本的框架，你可以根据自己的需求进行修改和扩展。例如，你可以尝试使用不同的相似度计算方法或可视化结果以获得更深入的洞察。