Groovy PDFBox：如何读取和解析 PDF 文件中的所有元素（文本和条码）

要读取和解析所有元素，你可以使用 Apache PDFBox 库。以下是读取文本和条码元素的示例代码：

import java.awt.image.BufferedImage;
import java.io.IOException;
import java.util.List;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.font.PDFont;
import org.apache.pdfbox.pdmodel.font.PDType1Font;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;

public class PDFParser {

  public static void main(String[] args) throws IOException {
    PDDocument document = PDDocument.load(new File('input.pdf'));

    for (PDPage page : document.getPages()) {
      PDResources resources = page.getResources();
      PDFTextStripper stripper = new PDFTextStripper() {
        @Override
        protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
          // 文本元素
          super.writeString(text, textPositions);
        }
      };
      stripper.getText(document);

      for (COSName name : resources.getXObjectNames()) {
        if (resources.isImageXObject(name)) {
          // 条码元素
          PDImageXObject image = (PDImageXObject) resources.getXObject(name);
          BufferedImage bufferedImage = image.getImage();
          // 处理条码
        }
      }
    }

    document.close();
  }
}

上面的代码会遍历 PDF 中的所有页面，并使用 PDFBox 的 PDFTextStripper 类提取文本元素。在 'writeString' 方法中，您可以处理提取的文本，例如打印到控制台或保存到文件。接下来，代码遍历页面资源中的所有对象，并检查是否为图像对象。如果找到图像对象，则可以将其转换为 'PDImageXObject' 并处理其中的条码。

请注意，对于不同类型的条码，您需要使用不同的库来读取它们。例如，对于二维码，您可以使用 ZXing 库。

Groovy PDFBox：如何读取和解析 PDF 文件中的所有元素（文本和条码）