Groovy PDFBox COSObject: 读取 PDF 文本和图片

Groovy PDFBox COSObject 可以读取 PDF 文件中的文本和图片。

要读取文本，您可以使用以下代码：

import org.apache.pdfbox.cos.COSDocument
import org.apache.pdfbox.io.RandomAccessFile
import org.apache.pdfbox.pdfparser.PDFParser

def pdfFile = new File('example.pdf')
def parser = new PDFParser(new RandomAccessFile(pdfFile, 'r'))
parser.parse()
def cosDoc = parser.getDocument() as COSDocument

cosDoc.getObjects().each { obj ->
    if (obj.isString()) {
        def text = obj.getString()
        // 对文本进行操作
    }
}

要读取图像，您可以使用以下代码：

import org.apache.pdfbox.cos.COSDocument
import org.apache.pdfbox.io.RandomAccessFile
import org.apache.pdfbox.pdfparser.PDFParser
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject

def pdfFile = new File('example.pdf')
def parser = new PDFParser(new RandomAccessFile(pdfFile, 'r'))
parser.parse()
def cosDoc = parser.getDocument() as COSDocument

cosDoc.getObjects().each { obj ->
    if (obj instanceof PDImageXObject) {
        def image = obj.getImage()
        // 对图像进行操作
    }
}

请注意，在读取图像时，您应该检查对象是否为 PDImageXObject 类型。