python 两个中文word文件正文内容和表格内容对比有效的提取重复部分到文档的代码
要实现提取两个中文Word文件的正文内容和表格内容的重复部分,可以使用Python的python-docx库来处理Word文档。以下是一个示例代码:
from docx import Document
# 打开第一个Word文件
doc1 = Document('file1.docx')
# 提取第一个文件的正文内容
doc1_text = ' '.join([paragraph.text for paragraph in doc1.paragraphs])
# 提取第一个文件的表格内容
doc1_tables = []
for table in doc1.tables:
for row in table.rows:
for cell in row.cells:
doc1_tables.append(cell.text)
# 打开第二个Word文件
doc2 = Document('file2.docx')
# 提取第二个文件的正文内容
doc2_text = ' '.join([paragraph.text for paragraph in doc2.paragraphs])
# 提取第二个文件的表格内容
doc2_tables = []
for table in doc2.tables:
for row in table.rows:
for cell in row.cells:
doc2_tables.append(cell.text)
# 提取重复的正文内容
duplicate_text = set(doc1_text.split()) & set(doc2_text.split())
# 提取重复的表格内容
duplicate_tables = set(doc1_tables) & set(doc2_tables)
# 创建新的Word文档
new_doc = Document()
# 添加重复的正文内容
new_doc.add_heading('重复的正文内容', level=1)
for text in duplicate_text:
new_doc.add_paragraph(text)
# 添加重复的表格内容
new_doc.add_heading('重复的表格内容', level=1)
for table in duplicate_tables:
new_doc.add_paragraph(table)
# 保存新的Word文档
new_doc.save('duplicate.docx')
请将代码中的file1.docx和file2.docx替换为实际的文件路径。代码首先打开两个Word文件,并提取它们的正文内容和表格内容。然后,使用集合操作符&找到重复的正文内容和表格内容。最后,将重复的内容添加到一个新的Word文档中,并保存为duplicate.docx。
原文地址: https://www.cveoy.top/t/topic/hU0B 著作权归作者所有。请勿转载和采集!