Python 中文图片识别教程:使用 Tesseract OCR 库
如果你想在 Python 中识别中文图片内容,可以使用 Tesseract OCR 引擎。Tesseract 是一个开源的 OCR 引擎,可以识别多种语言,包括中文。
首先,你需要安装 Tesseract OCR。你可以通过以下命令使用 pip 安装 pytesseract 库:
pip install pytesseract
然后,你需要下载 Tesseract OCR 的中文语言数据。你可以从 Tesseract OCR 的 GitHub 页面(https://github.com/tesseract-ocr/tessdata)下载语言数据。你需要下载 'chi_sim.traineddata' 文件。
下载完成后,你可以将 'chi_sim.traineddata' 文件放置在 Tesseract OCR 的语言数据目录下。在 Windows 系统中,默认的语言数据目录是 'C:\Program Files\Tesseract-OCR\tessdata'。
接下来,你可以使用 pytesseract 库来识别中文图片内容。以下是一个简单的示例代码:
import pytesseract
from PIL import Image
# 设置 Tesseract OCR 的语言为中文
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
tessdata_dir_config = '--tessdata-dir 'C:\Program Files\Tesseract-OCR\tessdata' --psm 6'
# 打开图片
image = Image.open('image.png')
# 使用 Tesseract OCR 识别图片内容
text = pytesseract.image_to_string(image, lang='chi_sim', config=tessdata_dir_config)
# 输出识别结果
print(text)
请确保将 tesseract_cmd 变量设置为 Tesseract OCR 的可执行文件路径,并根据你的实际情况修改 tessdata_dir_config 变量的值。
这样,你就可以使用 Tesseract OCR 来识别中文图片内容了。请注意,Tesseract OCR 的识别准确率可能会受到图片质量、字体、大小等因素的影响。
原文地址: https://www.cveoy.top/t/topic/fwKZ 著作权归作者所有。请勿转载和采集!