groovy pdfbox 按顺序读取pdf文件pdf文件是多个单据要提取这些单据放到list中

以下是使用Groovy和PDFBox库按顺序读取PDF文件，并将单据提取到列表中的代码示例：

@Grab(group='org.apache.pdfbox', module='pdfbox', version='2.0.23')
import org.apache.pdfbox.pdmodel.PDDocument
import org.apache.pdfbox.text.PDFTextStripper

def pdfFilePath = '/path/to/pdf/file.pdf'
def document = PDDocument.load(new File(pdfFilePath))
def stripper = new PDFTextStripper()

// 按页读取PDF文件
def pages = document.pages
def documents = []
for (int i = 0; i < pages.count; i++) {
    def page = pages[i]
    stripper.setStartPage(i+1)
    stripper.setEndPage(i+1)
    def pageText = stripper.getText(document)
    
    // 检查是否存在单据标志文本，如果存在则提取单据文本
    if (pageText.contains('单据标志文本')) {
        def documentText = // 提取单据文本的逻辑，可以根据需求自行实现
        documents.add(documentText)
    }
}

document.close()

在上述代码中，我们首先使用PDFBox库加载PDF文件，然后使用PDFTextStripper按顺序读取PDF文件中的每一页，并检查是否包含单据标志文本。如果存在，则提取单据文本并将其添加到列表中。最后，我们关闭PDF文件并返回提取的单据列表

groovy pdfbox 按顺序读取pdf文件pdf文件是多个单据要提取这些单据放到list中