Python比较两个Word文档重复率并提取重复内容

本篇博客将介绍如何使用Python比较两个中文Word文档的正文和表格内容，计算重复率，并提取重复内容保存到新的Word文档中。

代码示例

以下代码使用了python-docx库处理Word文档，difflib库中的SequenceMatcher类计算文本相似度。pythonimport docxfrom difflib import SequenceMatcher

def compare_word_documents(doc1_path, doc2_path, output_path): # 打开两个Word文档 doc1 = docx.Document(doc1_path) doc2 = docx.Document(doc2_path)

# 获取doc1中的正文内容    doc1_text = ''    for paragraph in doc1.paragraphs:        doc1_text += paragraph.text

# 获取doc1中的表格内容    doc1_tables = []    for table in doc1.tables:        for row in table.rows:            for cell in row.cells:                doc1_tables.append(cell.text)

# 获取doc2中的正文内容    doc2_text = ''    for paragraph in doc2.paragraphs:        doc2_text += paragraph.text

# 获取doc2中的表格内容    doc2_tables = []    for table in doc2.tables:        for row in table.rows:            for cell in row.cells:                doc2_tables.append(cell.text)

# 计算正文内容的相似度    text_similarity = SequenceMatcher(None, doc1_text, doc2_text).ratio()

# 计算表格内容的相似度    table_similarity = SequenceMatcher(None, ' '.join(doc1_tables), ' '.join(doc2_tables)).ratio()

# 将重复内容保存到文档中    output_doc = docx.Document()    output_doc.add_paragraph(f'正文内容相似度：{text_similarity}')    output_doc.add_paragraph(f'表格内容相似度：{table_similarity}')    output_doc.add_paragraph('重复的正文内容：')    for paragraph in doc1.paragraphs:        if paragraph.text in doc2_text:            output_doc.add_paragraph(paragraph.text)    output_doc.add_paragraph('重复的表格内容：')    for cell_text in doc1_tables:        if cell_text in doc2_tables:            output_doc.add_paragraph(cell_text)

# 保存输出文档    output_doc.save(output_path)

示例用法compare_word_documents('doc1.docx', 'doc2.docx', 'output.docx')

使用方法

安装必要的库： bash pip install python-docx pip install difflib 2. 将代码保存为Python文件，例如 compare_docs.py。3. 将需要比较的两个Word文档分别命名为 doc1.docx 和 doc2.docx，并与 compare_docs.py 文件放在同一目录下。4. 运行代码： bash python compare_docs.py 5. 代码运行完成后，会在同一目录下生成一个名为 output.docx 的Word文档，其中包含了两个文档的重复率和重复内容。

注意： 以上代码仅供参考，你可以根据实际需求进行修改和完善。例如，可以添加对不同类型表格的处理，或者使用更精确的算法计算文本相似度等。