Python 使用 Tesseract OCR 识别图片文字教程
使用 Python 和 Tesseract OCR 识别图片中的文字,需要先安装 Tesseract OCR 软件和 Python 的 tesseract 包。
- 安装 Tesseract OCR 软件
Tesseract OCR 是一个开源的 OCR 引擎,可以识别多种语言的文字。在 Windows 上安装 Tesseract OCR,可以从官方网站 https://github.com/UB-Mannheim/tesseract/wiki 下载最新的 Tesseract OCR 安装程序。
- 安装 Python 的 tesseract 包
在 Python 中使用 Tesseract OCR,需要安装 tesseract 包。可以使用 pip 命令进行安装:
pip install pytesseract
- 识别图片中的文字
安装完成后,就可以使用 Python 的 tesseract 包识别图片中的文字了。以下是一个简单的示例:
import pytesseract
from PIL import Image
# 打开图片文件
image = Image.open('test.png')
# 识别图片中的文字
text = pytesseract.image_to_string(image, lang='eng')
# 输出识别结果
print(text)
在这个示例中,我们使用 PIL 库打开了一个名为 test.png 的图片文件,然后使用 pytesseract 包中的 image_to_string 函数对图片进行识别,并指定了识别的语言为英语 (lang='eng')。最后输出识别结果。
需要注意的是,Tesseract OCR 对于识别图片中的文字,需要处理的图片清晰度较高,背景不要太复杂,字体也要比较规范,否则识别的准确率可能会降低。
原文地址: https://www.cveoy.top/t/topic/lKpI 著作权归作者所有。请勿转载和采集!