是的,可以使用 Python 中的一些库来提取 PDF 文件中的文字,并将其转换为 Word 文件。其中,PyPDF2 库用于读取和提取 PDF 中的文本,python-docx 库用于创建和编辑 Word 文档。

首先,确保您已安装了 PyPDF2python-docx 库。您可以使用以下命令通过 pip 安装它们:

pip install PyPDF2 python-docx

下面是一个示例代码,用于从 PDF 文件中提取文本并将其写入 Word 文件:

import PyPDF2
from docx import Document

def extract_text_from_pdf(file_path):
    text = ""
    with open(file_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        for page in pdf_reader.pages:
            text += page.extract_text()
    return text

def create_word_file(text, output_file_path):
    doc = Document()
    doc.add_paragraph(text)
    doc.save(output_file_path)

# 设置输入的 PDF 文件路径和输出的 Word 文件路径
pdf_file_path = "input.pdf"
word_file_path = "output.docx"

# 从 PDF 文件提取文本
extracted_text = extract_text_from_pdf(pdf_file_path)

# 创建 Word 文档并将提取的文本写入其中
create_word_file(extracted_text, word_file_path)

print("转换完成!")

在上述代码中,您需要将 pdf_file_path 设置为输入的 PDF 文件路径,并将 word_file_path 设置为输出的 Word 文件路径。运行代码后,它将从 PDF 文件中提取文本,然后创建一个新的 Word 文档,并将提取的文本写入其中。

请注意,文本提取的准确性和格式保留可能取决于 PDF 文件的结构和内容。某些 PDF 文件可能包含图像或复杂的布局,这可能会导致提取的文本不完全准确或格式不一致。

希望这可以帮助到您!如有任何问题,请随时提问。


原文地址: https://www.cveoy.top/t/topic/14i 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录