Python 使用 Pytesseract 高质量识别图片文字 - 代码示例与技巧 - 常规

以下是一个使用 Pytesseract 的 Python 代码示例，用于识别图像中的文本：

import pytesseract
from PIL import Image

# 安装 tesseract-ocr 并设置环境变量
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

# 打开图像并进行识别文本
img = Image.open('example.png')
text = pytesseract.image_to_string(img, lang='chi_sim')

# 输出识别结果
print(text)

在这个例子中，我们首先导入了 Pytesseract 和 PIL 库。然后，我们设置了 Tesseract 的路径，以便 Pytesseract 可以找到并使用它。接下来，我们打开了一个图像，然后使用 Pytesseract 的 image_to_string() 函数识别图像中的文本。我们还指定了语言为 'chi_sim'，这表示我们希望识别中文文本。最后，我们打印出识别的文本结果。

通过调整 lang 参数，我们可以识别其他语言的文本。例如，如果我们想识别英文文本，我们可以将 lang 参数设置为 'eng'：

text = pytesseract.image_to_string(img, lang='eng')

当然，要获得更好的识别结果，我们可能需要对图像进行预处理，例如裁剪、缩放、去噪等。在这个例子中，我们没有进行额外的预处理，但我们可以使用 PIL 库来实现这些操作。

此外，要注意的是，Pytesseract 依赖于 Tesseract-OCR 引擎，因此我们需要先安装 Tesseract-OCR 并配置环境变量。

Python 使用 Pytesseract 高质量识别图片文字 - 代码示例与技巧