iTextSharpNetCore 读取PDF文件中的文字
iTextSharp.NetCore 是一个用于处理 PDF 文件的开源库,可以用它来读取 PDF 文件中的文字。
以下是读取 PDF 文件中所有文字的示例代码:
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
public static string GetTextFromPdf(string path)
{
using (PdfReader reader = new PdfReader(path))
{
StringBuilder text = new StringBuilder();
for (int i = 1; i <= reader.NumberOfPages; i++)
{
text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
}
return text.ToString();
}
}
首先,我们创建一个 PdfReader 对象,用于打开 PDF 文件。然后,我们遍历 PDF 文件的所有页面,使用 PdfTextExtractor 类的 GetTextFromPage() 方法来提取每个页面的文字,并将其添加到一个 StringBuilder 对象中。最后,我们返回 StringBuilder 对象中的所有文字。
请注意,这个示例只是一个简单的示例,不能处理带有图像或其他非文本内容的 PDF 文件。如果您需要更高级的 PDF 处理功能,请查看 iTextSharp.NetCore 的文档和示例代码。
原文地址: https://www.cveoy.top/t/topic/bURt 著作权归作者所有。请勿转载和采集!