Python 读取 PDF 文件内容 - 使用 PyPDF2 库
使用 Python 中的第三方库 PyPDF2 可以轻松读取 PDF 文件内容。以下是一个简单的示例代码:
import PyPDF2
# 打开 PDF 文件
pdf_file = open('example.pdf', 'rb')
# 创建 PDF 阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 获取 PDF 文件的页数
num_pages = pdf_reader.getNumPages()
# 读取第一页内容
page = pdf_reader.getPage(0)
page_content = page.extractText()
# 打印第一页内容
print(page_content)
# 关闭文件
pdf_file.close()
首先,我们使用 open 函数打开 PDF 文件,并以二进制模式打开 ('rb')。然后,使用 PdfFileReader 类创建一个 PDF 阅读器对象,从而可以获取 PDF 文件的页数和读取指定页的内容。在上面的代码中,我们读取了第一页的内容并打印。最后,我们使用 close 方法关闭文件。
原文地址: https://www.cveoy.top/t/topic/oNiY 著作权归作者所有。请勿转载和采集!