Groovy 读取 PDF 文件内容:从左至右提取文本
你可以使用 Apache PDFBox 来读取 PDF 文件中的文本内容。以下是一个示例代码:
@Grab(group='org.apache.pdfbox', module='pdfbox', version='2.0.23')
import org.apache.pdfbox.pdmodel.PDDocument
import org.apache.pdfbox.text.PDFTextStripper
def pdfFilePath = '/path/to/pdf/file.pdf'
PDDocument document = PDDocument.load(new File(pdfFilePath))
PDFTextStripper pdfStripper = new PDFTextStripper()
def text = pdfStripper.getText(document)
println(text)
document.close()
这个代码会读取 PDF 文件中的所有文本内容,并按照从左至右的顺序进行排列。你可以根据需要对文本内容进行分割和处理。
原文地址: https://www.cveoy.top/t/topic/nwjT 著作权归作者所有。请勿转载和采集!