Python 批量转换 PDF 文件到 TXT 文件:以贵州茅台财务分析年报为例
使用 Python 批量转换 PDF 文件到 TXT 文件:以贵州茅台财务分析年报为例/n/n本教程将展示如何使用 Python 将指定文件夹中的 PDF 文件批量转换为 TXT 文件,并保存到指定的文件夹中。以贵州茅台财务分析年报为例,我们将 5 个 PDF 文件转换为 5 个对应的 TXT 文件。教程使用最新版本的 PyPDF2 模块,并附带详细的代码示例。/n/n### 代码实现/n/npython/nimport os/nimport PyPDF2/n/n# 设置路径/npdf_folder_path = r'D:/南巢/第六学期/大数据与会计分析/贵州茅台财务分析/年报'/ntxt_folder_path = r'D:/南巢/第六学期/大数据与会计分析/贵州茅台财务分析/年报/年报txt'/n/n# 遍历文件夹中的pdf文件/nfor filename in os.listdir(pdf_folder_path):/n if filename.endswith('.pdf'):/n # 打开pdf文件/n with open(os.path.join(pdf_folder_path, filename), 'rb') as pdf_file:/n # 读取pdf内容/n pdf_reader = PyPDF2.PdfFileReader(pdf_file)/n content = ''/n for page_num in range(pdf_reader.getNumPages()):/n page = pdf_reader.getPage(page_num)/n content += page.extractText()/n/n # 创建对应的txt文件并写入内容/n txt_filename = os.path.splitext(filename)[0] + '.txt'/n with open(os.path.join(txt_folder_path, txt_filename), 'w', encoding='utf-8') as txt_file:/n txt_file.write(content)/n/n/n### 代码说明/n/n1. 导入必要的库:os 用于操作文件和目录,PyPDF2 用于读取 PDF 文件。/n2. 设置目标路径:pdf_folder_path 为包含 PDF 文件的文件夹路径,txt_folder_path 为保存 TXT 文件的文件夹路径。/n3. 遍历文件夹中的 PDF 文件:使用 os.listdir 函数获取 pdf_folder_path 中的所有文件,然后判断文件后缀是否为 .pdf。/n4. 打开 PDF 文件:使用 open 函数以二进制模式打开 PDF 文件。/n5. 读取 PDF 内容:使用 PyPDF2.PdfFileReader 对象读取 PDF 文件,并使用循环遍历所有页面,提取每一页的文本内容。/n6. 创建 TXT 文件:使用 os.path.splitext 函数获取文件名,并添加 .txt 后缀作为新的 TXT 文件名。使用 open 函数以写模式打开 TXT 文件,并将提取到的文本内容写入文件。/n/n### 注意事项/n/n* 请确保已安装 PyPDF2 模块。可以使用 pip install pypdf2 命令进行安装。/n* 如果 PDF 文件中包含特殊字符,可能导致转换结果出现乱码。可以使用其他工具或方法进行处理。/n* 本教程仅为示例,您可以根据实际需求修改代码和路径。
原文地址: https://www.cveoy.top/t/topic/oSQG 著作权归作者所有。请勿转载和采集!