Python 代码提取两个中文 Word 文档重复内容 (正文和表格)
要实现提取两个中文 Word 文件的正文内容和表格内容的重复部分,可以使用 Python 的 python-docx 库来处理 Word 文档。以下是一个示例代码:
from docx import Document
# 打开第一个 Word 文件
doc1 = Document('file1.docx')
# 提取第一个文件的正文内容
doc1_text = ' '.join([paragraph.text for paragraph in doc1.paragraphs])
# 提取第一个文件的表格内容
doc1_tables = []
for table in doc1.tables:
for row in table.rows:
for cell in row.cells:
doc1_tables.append(cell.text)
# 打开第二个 Word 文件
doc2 = Document('file2.docx')
# 提取第二个文件的正文内容
doc2_text = ' '.join([paragraph.text for paragraph in doc2.paragraphs])
# 提取第二个文件的表格内容
doc2_tables = []
for table in doc2.tables:
for row in table.rows:
for cell in row.cells:
doc2_tables.append(cell.text)
# 提取重复的正文内容
duplicate_text = set(doc1_text.split()) & set(doc2_text.split())
# 提取重复的表格内容
duplicate_tables = set(doc1_tables) & set(doc2_tables)
# 创建新的 Word 文档
new_doc = Document()
# 添加重复的正文内容
new_doc.add_heading('重复的正文内容', level=1)
for text in duplicate_text:
new_doc.add_paragraph(text)
# 添加重复的表格内容
new_doc.add_heading('重复的表格内容', level=1)
for table in duplicate_tables:
new_doc.add_paragraph(table)
# 保存新的 Word 文档
new_doc.save('duplicate.docx')
请将代码中的'file1.docx'和'file2.docx'替换为实际的文件路径。代码首先打开两个 Word 文件,并提取它们的正文内容和表格内容。然后,使用集合操作符&找到重复的正文内容和表格内容。最后,将重复的内容添加到一个新的 Word 文档中,并保存为'duplicate.docx'。
原文地址: https://www.cveoy.top/t/topic/fCeF 著作权归作者所有。请勿转载和采集!