Python 批量将 PDF 文件转换为 TXT 文件 (PyPDF2 模块)

以下是使用 Python 和 PyPDF2 模块将指定文件夹中的所有 PDF 文件转换为 TXT 文件的代码示例：

import os
import PyPDF2

pdf_folder = r'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'

# 获取所有pdf文件的路径
pdf_files = [os.path.join(pdf_folder, f) for f in os.listdir(pdf_folder) if f.endswith('.pdf')]

# 遍历每个pdf文件，将其转化为txt文件
for pdf_file in pdf_files:
    with open(pdf_file, 'rb') as f:
        pdf_reader = PyPDF2.PdfFileReader(f)
        text = '\n'.join([pdf_reader.getPage(i).extractText() for i in range(pdf_reader.getNumPages())])
    txt_file = os.path.splitext(pdf_file)[0] + '.txt'
    with open(txt_file, 'w', encoding='utf-8') as f:
        f.write(text)

该代码使用 PyPDF2 模块读取 PDF 文件内容，并将所有页面内容合并成一个字符串，然后保存到对应名称的 TXT 文件中。

注意：

此代码示例使用 PyPDF2 模块，因为 PyPDF2 是专门用于处理 PDF 文件的 Python 库，其版本与题目所要求的版本相符。
如果使用 PyPDF4 模块，可能会出现版本不匹配的问题。
代码中的 pdf_folder 变量需要根据实际路径进行修改。
代码默认使用 utf-8 编码保存 TXT 文件，如果需要使用其他编码，请修改 encoding 参数。

希望以上信息对您有所帮助！