groovy PDFTextStripper 按从上到下顺序读取
PDFTextStripper 是一个 Java 类,用于从 PDF 文件中提取文本。默认情况下,它按照 PDF 文件中的页面顺序从左到右、从上到下读取文本。如果需要按从上到下顺序读取文本,可以通过设置 PageMode 属性为 UseOC 及设置 SortByPosition 属性为 true 来实现。
以下是示例代码:
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class PDFReader {
public static void main(String[] args) {
String filePath = "path/to/pdf/file.pdf";
try (PDDocument document = PDDocument.load(new File(filePath))) {
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition(true);
stripper.setPageMode(PDFTextStripper.PDFTextStripperPageMode.USE_OC);
String text = stripper.getText(document);
System.out.println(text);
} catch (IOException e) {
e.printStackTrace();
}
}
}
``
原文地址: https://www.cveoy.top/t/topic/cykl 著作权归作者所有。请勿转载和采集!