Python 提取 Word 文档内容:支持单列和双列排版

以下代码可以提取 Word 文档中的所有文本内容,并支持单列和双列排版。

from docx import Document

def read_word(filename):
    document = Document(filename)
    text = []
    for paragraph in document.paragraphs:
        # 检查该段落是否在左侧列
        if paragraph.alignment == 0 or paragraph.alignment == 1:
            text.append(paragraph.text)
    return '\n'.join(text)

这段代码会检查每个段落的对齐方式,如果是左对齐或居中对齐,就将其内容加入到文本列表中。这样就可以处理单列和双列排版的情况了。

使用说明:

  1. 确保已经安装 python-docx 库。可以使用 pip install python-docx 命令进行安装。
  2. filename 替换为你的 Word 文档的路径。
  3. 运行代码,即可获取文档的文本内容。

示例:

text = read_word('my_document.docx')
print(text)
Python 提取 Word 文档内容:支持单列和双列排版

原文地址: https://www.cveoy.top/t/topic/mLxg 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录