Python 使用 Pytesseract 高质量识别图片文字 - 代码示例与技巧
以下是一个使用 Pytesseract 的 Python 代码示例,用于识别图像中的文本:
import pytesseract
from PIL import Image
# 安装 tesseract-ocr 并设置环境变量
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
# 打开图像并进行识别文本
img = Image.open('example.png')
text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出识别结果
print(text)
在这个例子中,我们首先导入了 Pytesseract 和 PIL 库。然后,我们设置了 Tesseract 的路径,以便 Pytesseract 可以找到并使用它。接下来,我们打开了一个图像,然后使用 Pytesseract 的 image_to_string() 函数识别图像中的文本。我们还指定了语言为 'chi_sim',这表示我们希望识别中文文本。最后,我们打印出识别的文本结果。
通过调整 lang 参数,我们可以识别其他语言的文本。例如,如果我们想识别英文文本,我们可以将 lang 参数设置为 'eng':
text = pytesseract.image_to_string(img, lang='eng')
当然,要获得更好的识别结果,我们可能需要对图像进行预处理,例如裁剪、缩放、去噪等。在这个例子中,我们没有进行额外的预处理,但我们可以使用 PIL 库来实现这些操作。
此外,要注意的是,Pytesseract 依赖于 Tesseract-OCR 引擎,因此我们需要先安装 Tesseract-OCR 并配置环境变量。
原文地址: https://www.cveoy.top/t/topic/lIFN 著作权归作者所有。请勿转载和采集!