groovy pdfbox 按顺序读取pdf文件pdf文件是多组内容要提取这些内容放到list中
以下是一个示例代码,可以按顺序读取pdf文件,并将每个页面的内容提取出来放到一个list中:
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class PDFReader {
public static void main(String[] args) {
List<String> contentList = new ArrayList<String>();
try {
// Load PDF document
PDDocument document = PDDocument.load(new File("test.pdf"));
// Create PDF text stripper
PDFTextStripper stripper = new PDFTextStripper();
// Loop through each page and extract content
for (int i = 1; i <= document.getNumberOfPages(); i++) {
stripper.setStartPage(i);
stripper.setEndPage(i);
String content = stripper.getText(document);
contentList.add(content);
}
// Close the document
document.close();
} catch (IOException e) {
e.printStackTrace();
}
// Print the content list
for (String content : contentList) {
System.out.println(content);
}
}
}
在这个示例代码中,我们使用了PDFBox的PDDocument类来读取pdf文件。我们使用PDFTextStripper类来提取每个页面的内容,并将其添加到一个list中。最后,我们循环遍历这个list并将其输出到控制台

原文地址: http://www.cveoy.top/t/topic/cw9a 著作权归作者所有。请勿转载和采集!