Python提取PDF内容到TXT文件，并合并每份PDF内容到单个文件

input_folder = 'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'
output_folder = 'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'

for pdf_file in glob.glob(os.path.join(input_folder, '*.pdf')):
    with open(pdf_file, 'rb') as f:
        pdf_reader = PyPDF2.PdfReader(f)
        text = ''
        for i in range(len(pdf_reader.pages)):
            page = pdf_reader.pages[i]
            text += '\n'.join(page.extract_text())
        output_file = os.path.splitext(os.path.basename(pdf_file))[0] + '.txt'
        with open(os.path.join(output_folder, output_file), 'w', encoding='utf-8') as f:
            f.write(text)

该代码使用Python的PyPDF2库提取PDF文件内容，并将其写入到TXT文件中。循环遍历每个PDF文件，将所有页面的内容合并到一个字符串中，并写入到一个以PDF文件名为基础的TXT文件中。

代码说明：

input_folder 和 output_folder 分别指定了PDF文件所在的文件夹和TXT文件输出的文件夹。
glob.glob(os.path.join(input_folder, '*.pdf')) 用于获取指定文件夹下的所有PDF文件。
使用 PyPDF2.PdfReader 对象读取PDF文件内容。
循环遍历每个PDF文件的所有页面，使用 page.extract_text() 方法提取页面内容。
将所有页面内容合并到一个字符串 text 中。
将 text 写入到一个以PDF文件名为基础的TXT文件中。

运行结果：

该代码会将每个PDF文件的所有内容合并到一个TXT文件中，并且生成的TXT文件数量与PDF文件数量相同。

注意：

该代码依赖于PyPDF2库，请确保您已安装该库。
代码中的文件路径需要根据您的实际情况进行修改。
部分PDF文件可能无法完整提取文本内容，这取决于PDF文件的编码方式和内容结构。