PDFTextStripper 是一个 Java 类,用于从 PDF 文件中提取文本。默认情况下,它按照 PDF 文件中的页面顺序从左到右、从上到下读取文本。如果需要按从上到下顺序读取文本,可以通过设置 PageMode 属性为 UseOC 及设置 SortByPosition 属性为 true 来实现。

以下是示例代码:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PDFReader {
    public static void main(String[] args) {
        String filePath = "path/to/pdf/file.pdf";
        try (PDDocument document = PDDocument.load(new File(filePath))) {
            PDFTextStripper stripper = new PDFTextStripper();
            stripper.setSortByPosition(true);
            stripper.setPageMode(PDFTextStripper.PDFTextStripperPageMode.USE_OC);
            String text = stripper.getText(document);
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
``
groovy PDFTextStripper 按从上到下顺序读取

原文地址: https://www.cveoy.top/t/topic/cykl 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录