python 使用tesseract ocr识别图片中的文字
要使用Tesseract OCR识别图片中的文字,需要先安装Tesseract OCR软件并安装Python的tesseract包。
- 安装Tesseract OCR软件
Tesseract OCR是一个开源的OCR引擎,可以识别多种语言的文字。在Windows上安装Tesseract OCR,可以从官方网站 https://github.com/UB-Mannheim/tesseract/wiki 下载最新的Tesseract OCR安装程序。
- 安装Python的tesseract包
在Python中使用Tesseract OCR,需要安装tesseract包。可以使用pip命令进行安装:
pip install pytesseract
- 识别图片中的文字
安装完成后,就可以使用Python的tesseract包识别图片中的文字了。以下是一个简单的示例:
import pytesseract
from PIL import Image
# 打开图片文件
image = Image.open('test.png')
# 识别图片中的文字
text = pytesseract.image_to_string(image, lang='eng')
# 输出识别结果
print(text)
在这个示例中,我们使用PIL库打开了一个名为test.png的图片文件,然后使用pytesseract包中的image_to_string函数对图片进行识别,并指定了识别的语言为英语(lang='eng')。最后输出识别结果。
需要注意的是,Tesseract OCR对于识别图片中的文字,需要处理的图片清晰度较高,背景不要太复杂,字体也要比较规范,否则识别的准确率可能会降低。
原文地址: https://www.cveoy.top/t/topic/xaO 著作权归作者所有。请勿转载和采集!