groovy pdfbox 解析每个元素 提取文本内容

使用Apache PDFBox库可以方便地提取PDF文档中的文本内容。以下是一个示例代码，演示如何解析PDF文档并提取每个元素的文本内容：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;

import java.io.File;
import java.io.IOException;
import java.util.List;

public class PDFExtractor {

    public static void main(String[] args) throws IOException {
        PDDocument document = PDDocument.load(new File("example.pdf"));
        PDFTextStripper stripper = new PDFTextStripper() {
            @Override
            protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
                for (TextPosition textPosition : textPositions) {
                    System.out.println(textPosition.getXDirAdj() + "," + textPosition.getYDirAdj() + " " + text);
                }
            }
        };
        stripper.setSortByPosition(true);
        stripper.setStartPage(1);
        stripper.setEndPage(document.getNumberOfPages());
        stripper.getText(document);
        document.close();
    }

}

在上面的示例中，我们加载了一个名为“example.pdf”的PDF文档，并创建了一个PDFTextStripper对象。然后，我们覆盖了PDFTextStripper类的writeString方法，该方法在提取文本时被调用。在该方法中，我们遍历提供的TextPosition对象列表，并输出每个元素的坐标和文本内容。最后，我们使用getText方法从PDF文档中提取文本内容，并在完成后关闭文档

groovy pdfbox 解析每个元素 提取文本内容

groovy pdfbox 解析每个元素提取文本内容