Python 使用 Tesseract OCR 识别图片文字教程

使用 Python 和 Tesseract OCR 识别图片中的文字，需要先安装 Tesseract OCR 软件和 Python 的 tesseract 包。

安装 Tesseract OCR 软件

Tesseract OCR 是一个开源的 OCR 引擎，可以识别多种语言的文字。在 Windows 上安装 Tesseract OCR，可以从官方网站 https://github.com/UB-Mannheim/tesseract/wiki 下载最新的 Tesseract OCR 安装程序。

安装 Python 的 tesseract 包

在 Python 中使用 Tesseract OCR，需要安装 tesseract 包。可以使用 pip 命令进行安装：

pip install pytesseract

识别图片中的文字

安装完成后，就可以使用 Python 的 tesseract 包识别图片中的文字了。以下是一个简单的示例：

import pytesseract
from PIL import Image

# 打开图片文件
image = Image.open('test.png')

# 识别图片中的文字
text = pytesseract.image_to_string(image, lang='eng')

# 输出识别结果
print(text)

在这个示例中，我们使用 PIL 库打开了一个名为 test.png 的图片文件，然后使用 pytesseract 包中的 image_to_string 函数对图片进行识别，并指定了识别的语言为英语 (lang='eng')。最后输出识别结果。

需要注意的是，Tesseract OCR 对于识别图片中的文字，需要处理的图片清晰度较高，背景不要太复杂，字体也要比较规范，否则识别的准确率可能会降低。