使用 Groovy 和 PDFBox 读取 PDF 文档中每个元素的内容

日期: 2026-11-19 02:40:41

标签: 常规

可以使用以下代码来读取 PDF 文档中每个元素的内容：

import org.apache.pdfbox.cos.COSBase
import org.apache.pdfbox.cos.COSObject
import org.apache.pdfbox.pdmodel.PDDocument

PDDocument document = PDDocument.load(new File('example.pdf'))
for (COSObject object in document.getDocument().getObjects()) {
    COSBase base = object.getObject()
    if (base != null) {
        println base.toString()
    }
}
document.close()

上述代码将打印出每个元素的内容。请注意，PDF 文档中的元素可能是各种类型的对象，因此你需要根据需要对其进行转换或处理。

原文地址: https://www.cveoy.top/t/topic/nw3E 著作权归作者所有。请勿转载和采集!