Groovy PDFBox COSObject: 读取 PDF 文本和图片
Groovy PDFBox COSObject 可以读取 PDF 文件中的文本和图片。
要读取文本,您可以使用以下代码:
import org.apache.pdfbox.cos.COSDocument
import org.apache.pdfbox.io.RandomAccessFile
import org.apache.pdfbox.pdfparser.PDFParser
def pdfFile = new File('example.pdf')
def parser = new PDFParser(new RandomAccessFile(pdfFile, 'r'))
parser.parse()
def cosDoc = parser.getDocument() as COSDocument
cosDoc.getObjects().each { obj ->
if (obj.isString()) {
def text = obj.getString()
// 对文本进行操作
}
}
要读取图像,您可以使用以下代码:
import org.apache.pdfbox.cos.COSDocument
import org.apache.pdfbox.io.RandomAccessFile
import org.apache.pdfbox.pdfparser.PDFParser
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject
def pdfFile = new File('example.pdf')
def parser = new PDFParser(new RandomAccessFile(pdfFile, 'r'))
parser.parse()
def cosDoc = parser.getDocument() as COSDocument
cosDoc.getObjects().each { obj ->
if (obj instanceof PDImageXObject) {
def image = obj.getImage()
// 对图像进行操作
}
}
请注意,在读取图像时,您应该检查对象是否为 PDImageXObject 类型。
原文地址: https://www.cveoy.top/t/topic/nwZU 著作权归作者所有。请勿转载和采集!