这段代码是用 Python 对 Word 文档进行处理,提取其中的信息并存储到 Excel 表格中。具体包括以下几个步骤:

  1. 创建一个新的 Excel 工作簿,用于存储提取出的信息。
  2. 提取文本中的标题,并将其写入 Excel 表格中。
  3. 提取文本中所有段落的第一句话,并将其写入 Excel 表格中。
  4. 提取文本中所有加粗汉语,并将其写入 Excel 表格中。
  5. 识别汉语词性,并将其写入 Excel 表格中。
  6. 根据指定关键词,提取包含关键词的句子,并将其写入 Excel 表格中。
  7. 调整 Excel 表格中列的宽度。
  8. 保存 Excel 表格。
  9. 关闭 Word。

其中用到了 openpyxl、docx、jieba 和 win32com 等 Python 库。

import os import openpyxl import docx import jiebaposseg as pseg import win32comclient as win32 import re def extract_info_from_word_filesfolder_path # 创建一个新的工作簿 wb = openpyxlWorkbook #

原文地址: https://www.cveoy.top/t/topic/bjqH 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录