python 两个中文word文件正文内容和表格内容对比有效的提取重复部分到文档的代码

要实现提取两个中文Word文件的正文内容和表格内容的重复部分，可以使用Python的python-docx库来处理Word文档。以下是一个示例代码：

from docx import Document

# 打开第一个Word文件
doc1 = Document('file1.docx')

# 提取第一个文件的正文内容
doc1_text = ' '.join([paragraph.text for paragraph in doc1.paragraphs])

# 提取第一个文件的表格内容
doc1_tables = []
for table in doc1.tables:
    for row in table.rows:
        for cell in row.cells:
            doc1_tables.append(cell.text)

# 打开第二个Word文件
doc2 = Document('file2.docx')

# 提取第二个文件的正文内容
doc2_text = ' '.join([paragraph.text for paragraph in doc2.paragraphs])

# 提取第二个文件的表格内容
doc2_tables = []
for table in doc2.tables:
    for row in table.rows:
        for cell in row.cells:
            doc2_tables.append(cell.text)

# 提取重复的正文内容
duplicate_text = set(doc1_text.split()) & set(doc2_text.split())

# 提取重复的表格内容
duplicate_tables = set(doc1_tables) & set(doc2_tables)

# 创建新的Word文档
new_doc = Document()

# 添加重复的正文内容
new_doc.add_heading('重复的正文内容', level=1)
for text in duplicate_text:
    new_doc.add_paragraph(text)

# 添加重复的表格内容
new_doc.add_heading('重复的表格内容', level=1)
for table in duplicate_tables:
    new_doc.add_paragraph(table)

# 保存新的Word文档
new_doc.save('duplicate.docx')

请将代码中的file1.docx和file2.docx替换为实际的文件路径。代码首先打开两个Word文件，并提取它们的正文内容和表格内容。然后，使用集合操作符&找到重复的正文内容和表格内容。最后，将重复的内容添加到一个新的Word文档中，并保存为duplicate.docx。