Python 实现 PDF 转 Word：不使用 pypdf2 的方法

由于 PDF 文件是一种二进制文件格式，因此我们需要使用第三方库来读取、解析和转换它。在这个示例中，我们将使用 pdfminer.six 库来读取 PDF 文件，并使用 python-docx 库将其转换为 Word 文件。

安装所需库

首先，我们需要安装这两个库：

pip install pdfminer.six
pip install python-docx

代码示例

import io
import docx
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage

def convert_pdf_to_docx(pdf_file_path, docx_file_path):
    # 创建一个PDF资源管理器
    resource_manager = PDFResourceManager()
    # 设置编码
    codec = 'utf-8'
    # 设置文字转换参数
    laparams = docx.Document().model._part._element.lx(
        b'w:lun',
        {'w:val': 'never'}
    )
    # 创建一个文件对象
    file_obj = io.StringIO()
    # 创建一个PDF转换器
    converter = TextConverter(
        resource_manager,
        file_obj,
        codec=codec,
        laparams=laparams
    )
    # 创建一个PDF页面解释器
    interpreter = PDFPageInterpreter(resource_manager, converter)
    # 打开PDF文件
    with open(pdf_file_path, 'rb') as pdf_file:
        # 遍历PDF文件的每一页并解析文本
        for page in PDFPage.get_pages(pdf_file):
            interpreter.process_page(page)
        # 获取解析后的文本
        converted_text = file_obj.getvalue()
    # 关闭转换器和文件对象
    converter.close()
    file_obj.close()
    # 创建一个空docx文档
    doc = docx.Document()
    # 添加解析后的文本到docx文档中
    doc.add_paragraph(converted_text)
    # 保存docx文档
    doc.save(docx_file_path)

代码解释

导入库: 导入 io, docx, pdfminer.converter, pdfminer.pdfinterp, pdfminer.pdfpage 库。
定义函数: 定义 convert_pdf_to_docx 函数，接收 PDF 文件路径和输出 Word 文件路径作为参数。
创建资源管理器: 使用 PDFResourceManager() 创建一个 PDF 资源管理器。
设置编码: 将编码设置为 utf-8。
设置文字转换参数: 使用 docx.Document().model._part._element.lx() 设置文字转换参数，例如将 w:lun 的值设置为 never，避免在 Word 文档中出现不必要的换行符。
创建文件对象: 使用 io.StringIO() 创建一个文件对象，用于存储转换后的文本。
创建转换器: 使用 TextConverter() 创建一个 PDF 转换器，指定资源管理器、文件对象、编码和转换参数。
创建解释器: 使用 PDFPageInterpreter() 创建一个 PDF 页面解释器，指定资源管理器和转换器。
打开 PDF 文件: 使用 open(pdf_file_path, 'rb') 以二进制模式打开 PDF 文件。
遍历每一页并解析文本: 使用 PDFPage.get_pages() 获取所有页面，并使用 interpreter.process_page() 解析每一页的文本内容。
获取解析后的文本: 使用 file_obj.getvalue() 获取转换后的文本内容。
关闭资源: 使用 converter.close() 和 file_obj.close() 关闭转换器和文件对象。
创建 Word 文档: 使用 docx.Document() 创建一个空 Word 文档。
添加文本到 Word 文档: 使用 doc.add_paragraph(converted_text) 将转换后的文本作为段落添加到 Word 文档中。
保存 Word 文档: 使用 doc.save(docx_file_path) 将 Word 文档保存到指定路径。

常见问题解答

函数未被调用: 因为 convert_pdf_to_docx 函数只是一个定义，需要在代码中调用它才会执行。
库未安装成功: 请确保已正确安装 pdfminer.six 和 python-docx 库，可以使用 pip 命令来进行安装。
文件路径错误: 请确保指定的 PDF 文件和 Word 输出文件路径是正确的，且文件存在。

运行示例

假设 PDF 位置是 D:\鸿锐\桌面\临时文件夹\日语词汇.pdf，您可以使用以下代码将该 PDF 文件转换为 output.docx：

convert_pdf_to_docx('D:\鸿锐\桌面\临时文件夹\日语词汇.pdf', 'output.docx')

请注意，Windows 操作系统中的路径分隔符为反斜杠 \，但在 Python 中，反斜杠是一个转义字符，因此需要使用两个反斜杠或使用正斜杠 / 来表示路径分隔符。

总结

这段代码使用 pdfminer.six 和 python-docx 库实现了将 PDF 文件转换为 Word 文件的功能，无需依赖 pypdf2 库。代码示例包含详细注释，并提供常见问题解答和运行示例。希望这篇文章能够帮助您快速了解如何使用 Python 进行 PDF 转 Word 的操作。