python 两个中文word文件内容对比提取重复部分到文档的高效率代码

要实现两个中文Word文件内容的对比，并提取重复部分到文档中，可以使用Python的python-docx库来处理Word文档。以下是一个高效率的代码示例：

from docx import Document

# 读取第一个Word文档
doc1 = Document('doc1.docx')
# 读取第二个Word文档
doc2 = Document('doc2.docx')

# 提取第一个文档的所有段落内容
doc1_paragraphs = [p.text for p in doc1.paragraphs]
# 提取第二个文档的所有段落内容
doc2_paragraphs = [p.text for p in doc2.paragraphs]

# 找到重复的段落内容
duplicates = set(doc1_paragraphs) & set(doc2_paragraphs)

# 创建一个新的文档来保存重复的内容
output_doc = Document()
for paragraph in duplicates:
    output_doc.add_paragraph(paragraph)

# 保存输出文档
output_doc.save('output.docx')

在这个示例中，我们首先使用python-docx库读取两个Word文档的内容，并将它们分别保存在doc1_paragraphs和doc2_paragraphs列表中。然后，我们使用集合操作找到两个列表中的重复部分，并将其保存在duplicates集合中。最后，我们创建一个新的文档output_doc，并将重复的段落内容添加到其中，最后保存输出文档。

请注意，这个示例只处理段落内容的对比和提取，如果你需要对比其他部分（如表格、图片等），你需要相应地修改代码来处理这些部分。