Python 批量转换 PDF 文件到 TXT 文件：以贵州茅台财务分析年报为例

日期: 2026-04-28 16:58:44
标签: 常规

使用 Python 批量转换 PDF 文件到 TXT 文件：以贵州茅台财务分析年报为例/n/n本教程将展示如何使用 Python 将指定文件夹中的 PDF 文件批量转换为 TXT 文件，并保存到指定的文件夹中。以贵州茅台财务分析年报为例，我们将 5 个 PDF 文件转换为 5 个对应的 TXT 文件。教程使用最新版本的 PyPDF2 模块，并附带详细的代码示例。/n/n### 代码实现/n/npython/nimport os/nimport PyPDF2/n/n# 设置路径/npdf_folder_path = r'D:/南巢/第六学期/大数据与会计分析/贵州茅台财务分析/年报'/ntxt_folder_path = r'D:/南巢/第六学期/大数据与会计分析/贵州茅台财务分析/年报/年报txt'/n/n# 遍历文件夹中的pdf文件/nfor filename in os.listdir(pdf_folder_path):/n if filename.endswith('.pdf'):/n # 打开pdf文件/n with open(os.path.join(pdf_folder_path, filename), 'rb') as pdf_file:/n # 读取pdf内容/n pdf_reader = PyPDF2.PdfFileReader(pdf_file)/n content = ''/n for page_num in range(pdf_reader.getNumPages()):/n page = pdf_reader.getPage(page_num)/n content += page.extractText()/n/n # 创建对应的txt文件并写入内容/n txt_filename = os.path.splitext(filename)[0] + '.txt'/n with open(os.path.join(txt_folder_path, txt_filename), 'w', encoding='utf-8') as txt_file:/n txt_file.write(content)/n/n/n### 代码说明/n/n1. 导入必要的库：`os` 用于操作文件和目录，`PyPDF2` 用于读取 PDF 文件。/n2. 设置目标路径：`pdf_folder_path` 为包含 PDF 文件的文件夹路径，`txt_folder_path` 为保存 TXT 文件的文件夹路径。/n3. 遍历文件夹中的 PDF 文件：使用 `os.listdir` 函数获取 `pdf_folder_path` 中的所有文件，然后判断文件后缀是否为 `.pdf`。/n4. 打开 PDF 文件：使用 `open` 函数以二进制模式打开 PDF 文件。/n5. 读取 PDF 内容：使用 `PyPDF2.PdfFileReader` 对象读取 PDF 文件，并使用循环遍历所有页面，提取每一页的文本内容。/n6. 创建 TXT 文件：使用 `os.path.splitext` 函数获取文件名，并添加 `.txt` 后缀作为新的 TXT 文件名。使用 `open` 函数以写模式打开 TXT 文件，并将提取到的文本内容写入文件。/n/n### 注意事项/n/n* 请确保已安装 PyPDF2 模块。可以使用 `pip install pypdf2` 命令进行安装。/n* 如果 PDF 文件中包含特殊字符，可能导致转换结果出现乱码。可以使用其他工具或方法进行处理。/n* 本教程仅为示例，您可以根据实际需求修改代码和路径。

Python 批量转换 PDF 文件到 TXT 文件：以贵州茅台财务分析年报为例

原文地址: https://www.cveoy.top/t/topic/oSQG 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录

上一篇: 牛排之王：最美味牛排背后的故事
下一篇: PyQt5 图书馆管理系统开发：常见问题及解决方案