Python PDF 转 TXT: 批量将贵州茅台年报 PDF 转换为 TXT 文件

使用 Python 将贵州茅台年报 PDF 文件转化成 TXT 文件

本教程将演示如何使用 Python 和 PyPDF2 库将多个 PDF 文件转换为 TXT 文件，并将它们保存在指定的文件夹中。我们将以贵州茅台年报为例，演示如何将 PDF 中的文本内容提取并保存为 TXT 文件。

代码内容

import os
import PyPDF2

# 设置 PDF 文件路径和 TXT 文件保存路径
pdf_folder = r'D:\南巢\第六学期\大数据与会计分析\贵州茅台财务分析\年报'
txt_folder = os.path.join(pdf_folder, '年报txt')

# 创建保存 TXT 文件的文件夹
if not os.path.exists(txt_folder):
    os.mkdir(txt_folder)

# 遍历 PDF 文件夹中的所有 PDF 文件
for filename in os.listdir(pdf_folder):
    if filename.endswith('.PDF'):
        # 读取 PDF 文件内容
        pdf_file = open(os.path.join(pdf_folder, filename), 'rb')
        pdf_reader = PyPDF2.PdfFileReader(pdf_file)
        text = ''
        for i in range(pdf_reader.getNumPages()):
            page = pdf_reader.getPage(i)
            text += page.extractText()
        
        # 关闭 PDF 文件
        pdf_file.close()

        # 保存 TXT 文件
        txt_filename = os.path.splitext(filename)[0] + '.txt'
        txt_path = os.path.join(txt_folder, txt_filename)
        with open(txt_path, 'w', encoding='utf-8') as f:
            f.write(text)

代码逻辑解释

设置路径: 代码首先设置 PDF 文件所在的文件夹路径 pdf_folder 和保存 TXT 文件的文件夹路径 txt_folder。
创建文件夹: 如果 txt_folder 不存在，则创建该文件夹。
遍历 PDF 文件: 代码会遍历 pdf_folder 中所有以 .PDF 结尾的文件。
读取 PDF 内容: 对于每个 PDF 文件，使用 PyPDF2.PdfFileReader 读取其内容，并将所有页面的文本内容合并到 text 变量中。
保存 TXT 文件: 最后，将 text 保存到以原 PDF 文件名（去掉后缀）为文件名，并以 .txt 为后缀的新文件。

使用说明

安装 PyPDF2: 首先需要安装 PyPDF2 库，可以使用 pip install PyPDF2 命令进行安装。
修改路径: 将代码中的 pdf_folder 和 txt_folder 路径修改为你的实际路径。
运行代码: 运行代码后，代码会将 pdf_folder 中的所有 PDF 文件转换为 TXT 文件并保存到 txt_folder 中。

注意

代码假设所有 PDF 文件的文本内容都可以被 PyPDF2 库提取。如果 PDF 文件包含一些无法被提取的文本内容，则生成的 TXT 文件可能不完整。
代码会将所有 PDF 文件的内容合并到一个 TXT 文件中。如果需要将每个 PDF 文件的内容保存到单独的 TXT 文件中，则需要修改代码逻辑。

希望本教程能帮助你将 PDF 文件转换为 TXT 文件。如果你有任何问题，请随时在评论区留言。