Python PDF 转 TXT: 批量将贵州茅台年报 PDF 转换为 TXT 文件
使用 Python 将贵州茅台年报 PDF 文件转化成 TXT 文件
本教程将演示如何使用 Python 和 PyPDF2 库将多个 PDF 文件转换为 TXT 文件,并将它们保存在指定的文件夹中。我们将以贵州茅台年报为例,演示如何将 PDF 中的文本内容提取并保存为 TXT 文件。
代码内容
import os
import PyPDF2
# 设置 PDF 文件路径和 TXT 文件保存路径
pdf_folder = r'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'
txt_folder = os.path.join(pdf_folder, '年报txt')
# 创建保存 TXT 文件的文件夹
if not os.path.exists(txt_folder):
os.mkdir(txt_folder)
# 遍历 PDF 文件夹中的所有 PDF 文件
for filename in os.listdir(pdf_folder):
if filename.endswith('.PDF'):
# 读取 PDF 文件内容
pdf_file = open(os.path.join(pdf_folder, filename), 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
text = ''
for i in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(i)
text += page.extractText()
# 关闭 PDF 文件
pdf_file.close()
# 保存 TXT 文件
txt_filename = os.path.splitext(filename)[0] + '.txt'
txt_path = os.path.join(txt_folder, txt_filename)
with open(txt_path, 'w', encoding='utf-8') as f:
f.write(text)
代码逻辑解释
- 设置路径: 代码首先设置 PDF 文件所在的文件夹路径
pdf_folder和保存 TXT 文件的文件夹路径txt_folder。 - 创建文件夹: 如果
txt_folder不存在,则创建该文件夹。 - 遍历 PDF 文件: 代码会遍历
pdf_folder中所有以.PDF结尾的文件。 - 读取 PDF 内容: 对于每个 PDF 文件,使用
PyPDF2.PdfFileReader读取其内容,并将所有页面的文本内容合并到text变量中。 - 保存 TXT 文件: 最后,将
text保存到以原 PDF 文件名(去掉后缀)为文件名,并以.txt为后缀的新文件。
使用说明
- 安装 PyPDF2: 首先需要安装
PyPDF2库,可以使用pip install PyPDF2命令进行安装。 - 修改路径: 将代码中的
pdf_folder和txt_folder路径修改为你的实际路径。 - 运行代码: 运行代码后,代码会将
pdf_folder中的所有 PDF 文件转换为 TXT 文件并保存到txt_folder中。
注意
- 代码假设所有 PDF 文件的文本内容都可以被
PyPDF2库提取。如果 PDF 文件包含一些无法被提取的文本内容,则生成的 TXT 文件可能不完整。 - 代码会将所有 PDF 文件的内容合并到一个 TXT 文件中。如果需要将每个 PDF 文件的内容保存到单独的 TXT 文件中,则需要修改代码逻辑。
希望本教程能帮助你将 PDF 文件转换为 TXT 文件。如果你有任何问题,请随时在评论区留言。
原文地址: https://www.cveoy.top/t/topic/oSQZ 著作权归作者所有。请勿转载和采集!