使用 Groovy 和 PDFBox 读取 PDF 文档中每个元素的内容
可以使用以下代码来读取 PDF 文档中每个元素的内容:
import org.apache.pdfbox.cos.COSBase
import org.apache.pdfbox.cos.COSObject
import org.apache.pdfbox.pdmodel.PDDocument
PDDocument document = PDDocument.load(new File('example.pdf'))
for (COSObject object in document.getDocument().getObjects()) {
COSBase base = object.getObject()
if (base != null) {
println base.toString()
}
}
document.close()
上述代码将打印出每个元素的内容。请注意,PDF 文档中的元素可能是各种类型的对象,因此你需要根据需要对其进行转换或处理。
原文地址: https://www.cveoy.top/t/topic/nw3E 著作权归作者所有。请勿转载和采集!