Python 代码提取两个中文 Word 文档重复内容 (正文和表格)

要实现提取两个中文 Word 文件的正文内容和表格内容的重复部分，可以使用 Python 的 python-docx 库来处理 Word 文档。以下是一个示例代码：

from docx import Document

# 打开第一个 Word 文件
doc1 = Document('file1.docx')

# 提取第一个文件的正文内容
doc1_text = ' '.join([paragraph.text for paragraph in doc1.paragraphs])

# 提取第一个文件的表格内容
doc1_tables = []
for table in doc1.tables:
    for row in table.rows:
        for cell in row.cells:
            doc1_tables.append(cell.text)

# 打开第二个 Word 文件
doc2 = Document('file2.docx')

# 提取第二个文件的正文内容
doc2_text = ' '.join([paragraph.text for paragraph in doc2.paragraphs])

# 提取第二个文件的表格内容
doc2_tables = []
for table in doc2.tables:
    for row in table.rows:
        for cell in row.cells:
            doc2_tables.append(cell.text)

# 提取重复的正文内容
duplicate_text = set(doc1_text.split()) & set(doc2_text.split())

# 提取重复的表格内容
duplicate_tables = set(doc1_tables) & set(doc2_tables)

# 创建新的 Word 文档
new_doc = Document()

# 添加重复的正文内容
new_doc.add_heading('重复的正文内容', level=1)
for text in duplicate_text:
    new_doc.add_paragraph(text)

# 添加重复的表格内容
new_doc.add_heading('重复的表格内容', level=1)
for table in duplicate_tables:
    new_doc.add_paragraph(table)

# 保存新的 Word 文档
new_doc.save('duplicate.docx')

请将代码中的'file1.docx'和'file2.docx'替换为实际的文件路径。代码首先打开两个 Word 文件，并提取它们的正文内容和表格内容。然后，使用集合操作符&找到重复的正文内容和表格内容。最后，将重复的内容添加到一个新的 Word 文档中，并保存为'duplicate.docx'。