Python 代码:提取两个中文 Word 文档中表格的重复部分
要实现这个功能,你可以使用 Python 的 python-docx 库来读取和操作 Word 文档。下面是一个示例代码,可以提取两个中文 Word 文件中的重复部分到一个新的文档中:
from docx import Document
# 读取第一个 Word 文档
doc1 = Document('file1.docx')
# 读取第二个 Word 文档
doc2 = Document('file2.docx')
# 创建一个新的 Word 文档
doc3 = Document()
# 提取第一个文档中的表格内容
tables1 = []
for table in doc1.tables:
table_content = []
for row in table.rows:
row_content = []
for cell in row.cells:
row_content.append(cell.text)
table_content.append(row_content)
tables1.append(table_content)
# 提取第二个文档中的表格内容
tables2 = []
for table in doc2.tables:
table_content = []
for row in table.rows:
row_content = []
for cell in row.cells:
row_content.append(cell.text)
table_content.append(row_content)
tables2.append(table_content)
# 比较两个文档中的表格内容,提取重复部分到新文档
for table1 in tables1:
for table2 in tables2:
if table1 == table2:
# 在新文档中添加表格
table = doc3.add_table(rows=len(table1), cols=len(table1[0]))
for i, row in enumerate(table1):
for j, cell in enumerate(row):
table.cell(i, j).text = cell
break
# 保存新文档
doc3.save('duplicate.docx')
请注意,这个代码只能提取表格内容的重复部分,如果你还需要提取其他部分的重复内容,你需要相应地修改代码。
原文地址: https://www.cveoy.top/t/topic/fCeE 著作权归作者所有。请勿转载和采集!