Tesseract OCR 中文语言包安装教程 - 简繁体识别 - 常规

Tesseract OCR 中文语言包安装教程 - 简繁体识别

本文将详细介绍如何在 Tesseract OCR 中安装简体中文 (chi_sim) 和繁体中文 (chi_tra) 语言包，以便进行中文文字识别。

首先，你需要从 Tesseract 的官方 GitHub 仓库下载 chi_sim 和 chi_tra 语言包。你可以通过以下链接找到它们：

chi_sim.traineddata: https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
chi_tra.traineddata: https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata

将下载的 chi_sim.traineddata 和 chi_tra.traineddata 文件复制到 Tesseract 的 tessdata 目录。该目录的位置取决于你的操作系统和 Tesseract 的安装位置：

为了使 Tesseract 能够识别中文，你需要将 Tesseract 的可执行文件路径添加到系统环境变量中：

export PATH=$PATH:/usr/share/tesseract-ocr/4.00/

Windows: 在“控制面板” -> “系统和安全” -> “系统” -> “高级系统设置” -> “环境变量” 中添加 Tesseract 的可执行文件路径到系统环境变量 PATH 中。

在终端中输入以下命令检查 Tesseract 是否已成功安装并支持中文：

tesseract --list-langs

如果输出结果中包含 chi_sim 和 chi_tra，则说明你已成功安装中文语言包。

以上步骤适用于 Tesseract 4.0 及以上版本。如果你使用的是旧版本的 Tesseract，安装中文语言包的步骤可能有所不同。