Python提取PDF内容到TXT文件,并合并每份PDF内容到单个文件
input_folder = 'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'
output_folder = 'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'
for pdf_file in glob.glob(os.path.join(input_folder, '*.pdf')):
with open(pdf_file, 'rb') as f:
pdf_reader = PyPDF2.PdfReader(f)
text = ''
for i in range(len(pdf_reader.pages)):
page = pdf_reader.pages[i]
text += '\n'.join(page.extract_text())
output_file = os.path.splitext(os.path.basename(pdf_file))[0] + '.txt'
with open(os.path.join(output_folder, output_file), 'w', encoding='utf-8') as f:
f.write(text)
该代码使用Python的PyPDF2库提取PDF文件内容,并将其写入到TXT文件中。循环遍历每个PDF文件,将所有页面的内容合并到一个字符串中,并写入到一个以PDF文件名为基础的TXT文件中。
代码说明:
input_folder和output_folder分别指定了PDF文件所在的文件夹和TXT文件输出的文件夹。glob.glob(os.path.join(input_folder, '*.pdf'))用于获取指定文件夹下的所有PDF文件。- 使用
PyPDF2.PdfReader对象读取PDF文件内容。 - 循环遍历每个PDF文件的所有页面,使用
page.extract_text()方法提取页面内容。 - 将所有页面内容合并到一个字符串
text中。 - 将
text写入到一个以PDF文件名为基础的TXT文件中。
运行结果:
该代码会将每个PDF文件的所有内容合并到一个TXT文件中,并且生成的TXT文件数量与PDF文件数量相同。
注意:
- 该代码依赖于PyPDF2库,请确保您已安装该库。
- 代码中的文件路径需要根据您的实际情况进行修改。
- 部分PDF文件可能无法完整提取文本内容,这取决于PDF文件的编码方式和内容结构。
原文地址: https://www.cveoy.top/t/topic/oSWa 著作权归作者所有。请勿转载和采集!