input_folder = 'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'
output_folder = 'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'

for pdf_file in glob.glob(os.path.join(input_folder, '*.pdf')):
    with open(pdf_file, 'rb') as f:
        pdf_reader = PyPDF2.PdfReader(f)
        text = ''
        for i in range(len(pdf_reader.pages)):
            page = pdf_reader.pages[i]
            text += '\n'.join(page.extract_text())
        output_file = os.path.splitext(os.path.basename(pdf_file))[0] + '.txt'
        with open(os.path.join(output_folder, output_file), 'w', encoding='utf-8') as f:
            f.write(text)

该代码使用Python的PyPDF2库提取PDF文件内容,并将其写入到TXT文件中。循环遍历每个PDF文件,将所有页面的内容合并到一个字符串中,并写入到一个以PDF文件名为基础的TXT文件中。

代码说明:

  1. input_folderoutput_folder 分别指定了PDF文件所在的文件夹和TXT文件输出的文件夹。
  2. glob.glob(os.path.join(input_folder, '*.pdf')) 用于获取指定文件夹下的所有PDF文件。
  3. 使用 PyPDF2.PdfReader 对象读取PDF文件内容。
  4. 循环遍历每个PDF文件的所有页面,使用 page.extract_text() 方法提取页面内容。
  5. 将所有页面内容合并到一个字符串 text 中。
  6. text 写入到一个以PDF文件名为基础的TXT文件中。

运行结果:

该代码会将每个PDF文件的所有内容合并到一个TXT文件中,并且生成的TXT文件数量与PDF文件数量相同。

注意:

  • 该代码依赖于PyPDF2库,请确保您已安装该库。
  • 代码中的文件路径需要根据您的实际情况进行修改。
  • 部分PDF文件可能无法完整提取文本内容,这取决于PDF文件的编码方式和内容结构。
Python提取PDF内容到TXT文件,并合并每份PDF内容到单个文件

原文地址: https://www.cveoy.top/t/topic/oSWa 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录