以下是一个示例代码,可以按顺序读取pdf文件,并将每个页面的内容提取出来放到一个list中:

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PDFReader {

    public static void main(String[] args) {
        List<String> contentList = new ArrayList<String>();
        
        try {
            // Load PDF document
            PDDocument document = PDDocument.load(new File("test.pdf"));
            
            // Create PDF text stripper
            PDFTextStripper stripper = new PDFTextStripper();
            
            // Loop through each page and extract content
            for (int i = 1; i <= document.getNumberOfPages(); i++) {
                stripper.setStartPage(i);
                stripper.setEndPage(i);
                String content = stripper.getText(document);
                contentList.add(content);
            }
            
            // Close the document
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
        
        // Print the content list
        for (String content : contentList) {
            System.out.println(content);
        }
    }

}

在这个示例代码中,我们使用了PDFBox的PDDocument类来读取pdf文件。我们使用PDFTextStripper类来提取每个页面的内容,并将其添加到一个list中。最后,我们循环遍历这个list并将其输出到控制台

groovy pdfbox 按顺序读取pdf文件pdf文件是多组内容要提取这些内容放到list中

原文地址: http://www.cveoy.top/t/topic/cw9a 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录