groovy pdfbox 读取pdf 文本处理换行符

在 PDF 文件中，文本的换行符通常是由“\n”或“\r”字符表示的。在使用 Groovy PDFBox 读取 PDF 文件时，可以通过以下代码来处理换行符：

import org.apache.pdfbox.pdmodel.PDDocument
import org.apache.pdfbox.text.PDFTextStripper

def doc = PDDocument.load(new File("example.pdf"))
def stripper = new PDFTextStripper()

stripper.setLineSeparator("\n")
stripper.setParagraphStart("\n")
stripper.setParagraphEnd("\n")

def text = stripper.getText(doc)
println(text)

doc.close()

在上面的代码中，我们使用了 PDFTextStripper 类来提取 PDF 文件中的文本。在设置 PDFTextStripper 的属性时，我们使用了 setLineSeparator、setParagraphStart 和 setParagraphEnd 方法来处理换行符。具体来说，我们把换行符设置为“\n”，这样在提取文本时就会按照“\n”字符来进行换行。

最后，我们调用 getText 方法来提取整个 PDF 文件中的文本，并把结果打印到控制台上。注意，在使用完 PDDocument 对象后，我们要调用 close 方法来释放资源