Python 提取 Word 文档内容:支持单列和双列排版
Python 提取 Word 文档内容:支持单列和双列排版
以下代码可以提取 Word 文档中的所有文本内容,并支持单列和双列排版。
from docx import Document
def read_word(filename):
document = Document(filename)
text = []
for paragraph in document.paragraphs:
# 检查该段落是否在左侧列
if paragraph.alignment == 0 or paragraph.alignment == 1:
text.append(paragraph.text)
return '\n'.join(text)
这段代码会检查每个段落的对齐方式,如果是左对齐或居中对齐,就将其内容加入到文本列表中。这样就可以处理单列和双列排版的情况了。
使用说明:
- 确保已经安装
python-docx库。可以使用pip install python-docx命令进行安装。 - 将
filename替换为你的 Word 文档的路径。 - 运行代码,即可获取文档的文本内容。
示例:
text = read_word('my_document.docx')
print(text)
原文地址: https://www.cveoy.top/t/topic/mLxg 著作权归作者所有。请勿转载和采集!