Python 批量将 PDF 文件转换为 TXT 文件 (PyPDF2 模块)
以下是使用 Python 和 PyPDF2 模块将指定文件夹中的所有 PDF 文件转换为 TXT 文件的代码示例:
import os
import PyPDF2
pdf_folder = r'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'
# 获取所有pdf文件的路径
pdf_files = [os.path.join(pdf_folder, f) for f in os.listdir(pdf_folder) if f.endswith('.pdf')]
# 遍历每个pdf文件,将其转化为txt文件
for pdf_file in pdf_files:
with open(pdf_file, 'rb') as f:
pdf_reader = PyPDF2.PdfFileReader(f)
text = '\n'.join([pdf_reader.getPage(i).extractText() for i in range(pdf_reader.getNumPages())])
txt_file = os.path.splitext(pdf_file)[0] + '.txt'
with open(txt_file, 'w', encoding='utf-8') as f:
f.write(text)
该代码使用 PyPDF2 模块读取 PDF 文件内容,并将所有页面内容合并成一个字符串,然后保存到对应名称的 TXT 文件中。
注意:
- 此代码示例使用 PyPDF2 模块,因为 PyPDF2 是专门用于处理 PDF 文件的 Python 库,其版本与题目所要求的版本相符。
- 如果使用 PyPDF4 模块,可能会出现版本不匹配的问题。
- 代码中的
pdf_folder变量需要根据实际路径进行修改。 - 代码默认使用
utf-8编码保存 TXT 文件,如果需要使用其他编码,请修改encoding参数。
希望以上信息对您有所帮助!
原文地址: https://www.cveoy.top/t/topic/oSP3 著作权归作者所有。请勿转载和采集!