python 两个中文word文件内容对比含有表格有效的提取重复部分到文档的代码
要实现这个功能,你可以使用Python的python-docx库来读取和操作Word文档。下面是一个示例代码,可以提取两个中文Word文件中的重复部分到一个新的文档中:
from docx import Document
# 读取第一个Word文档
doc1 = Document('file1.docx')
# 读取第二个Word文档
doc2 = Document('file2.docx')
# 创建一个新的Word文档
doc3 = Document()
# 提取第一个文档中的表格内容
tables1 = []
for table in doc1.tables:
table_content = []
for row in table.rows:
row_content = []
for cell in row.cells:
row_content.append(cell.text)
table_content.append(row_content)
tables1.append(table_content)
# 提取第二个文档中的表格内容
tables2 = []
for table in doc2.tables:
table_content = []
for row in table.rows:
row_content = []
for cell in row.cells:
row_content.append(cell.text)
table_content.append(row_content)
tables2.append(table_content)
# 比较两个文档中的表格内容,提取重复部分到新文档
for table1 in tables1:
for table2 in tables2:
if table1 == table2:
# 在新文档中添加表格
table = doc3.add_table(rows=len(table1), cols=len(table1[0]))
for i, row in enumerate(table1):
for j, cell in enumerate(row):
table.cell(i, j).text = cell
break
# 保存新文档
doc3.save('duplicate.docx')
请注意,这个代码只能提取表格内容的重复部分,如果你还需要提取其他部分的重复内容,你需要相应地修改代码。
原文地址: https://www.cveoy.top/t/topic/hU0s 著作权归作者所有。请勿转载和采集!