import os import openpyxl import docx import jiebaposseg as pseg import win32comclient as win32 import re def extract_info_from_word_filesfolder_path # 创建一个新的工作簿 wb = openpyxlWorkbook #
这段代码是用 Python 对 Word 文档进行处理,提取其中的信息并存储到 Excel 表格中。具体包括以下几个步骤:
- 创建一个新的 Excel 工作簿,用于存储提取出的信息。
- 提取文本中的标题,并将其写入 Excel 表格中。
- 提取文本中所有段落的第一句话,并将其写入 Excel 表格中。
- 提取文本中所有加粗汉语,并将其写入 Excel 表格中。
- 识别汉语词性,并将其写入 Excel 表格中。
- 根据指定关键词,提取包含关键词的句子,并将其写入 Excel 表格中。
- 调整 Excel 表格中列的宽度。
- 保存 Excel 表格。
- 关闭 Word。
其中用到了 openpyxl、docx、jieba 和 win32com 等 Python 库。
原文地址: https://www.cveoy.top/t/topic/bjqH 著作权归作者所有。请勿转载和采集!