Tesseract OCR 中文语言包安装教程 - 简繁体识别

本文将详细介绍如何在 Tesseract OCR 中安装简体中文 (chi_sim) 和繁体中文 (chi_tra) 语言包,以便进行中文文字识别。

1. 下载中文语言包

首先,你需要从 Tesseract 的官方 GitHub 仓库下载 chi_simchi_tra 语言包。你可以通过以下链接找到它们:

  • chi_sim.traineddata: https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
  • chi_tra.traineddata: https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata

2. 将语言包复制到 Tesseract 的 tessdata 目录

将下载的 chi_sim.traineddatachi_tra.traineddata 文件复制到 Tesseract 的 tessdata 目录。该目录的位置取决于你的操作系统和 Tesseract 的安装位置:

  • Linux: /usr/share/tesseract-ocr/4.00/tessdata/
  • Windows: C:\Program Files\Tesseract-OCR\tessdata\

3. 配置环境变量

为了使 Tesseract 能够识别中文,你需要将 Tesseract 的可执行文件路径添加到系统环境变量中:

  • Linux: 在终端中执行以下命令:
export PATH=$PATH:/usr/share/tesseract-ocr/4.00/
  • Windows: 在“控制面板” -> “系统和安全” -> “系统” -> “高级系统设置” -> “环境变量” 中添加 Tesseract 的可执行文件路径到系统环境变量 PATH 中。

4. 测试安装

在终端中输入以下命令检查 Tesseract 是否已成功安装并支持中文:

tesseract --list-langs

如果输出结果中包含 chi_simchi_tra,则说明你已成功安装中文语言包。

注意

以上步骤适用于 Tesseract 4.0 及以上版本。如果你使用的是旧版本的 Tesseract,安装中文语言包的步骤可能有所不同。

Tesseract OCR 中文语言包安装教程 - 简繁体识别

原文地址: https://www.cveoy.top/t/topic/mte8 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录