Tess4j识别文字中文乱码

如果Tess4j识别出来的中文文字出现了乱码，可能是由于以下原因所导致：

Tess4j默认使用的是英文字符集，无法识别中文字符集，需要手动设置字符集为UTF-8。
图片质量不佳，导致识别出来的文本出现乱码。
OCR引擎在处理中文字符时出现了错误，需要根据具体情况进行调整。

解决方法：

设置字符集为UTF-8，可以在代码中添加以下语句：

tesseract.setDatapath("tessdata");
tesseract.setLanguage("chi_sim");
tesseract.setOcrEngineMode(1);
tesseract.setPageSegMode(1);
tesseract.setCharWhitelist("0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");
tesseract.setTessVariable("user_defined_dpi", "300");
tesseract.setTessVariable("user_words_suffix", "user-words");
tesseract.setTessVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");
tesseract.setTessVariable("tessedit_unrej_any_wd", true);

改善图片质量，可以通过以下方法：

调整图片分辨率，提高图片清晰度。
去除图片噪声，使图像更加清晰。
调整图片对比度和亮度，使图像更加清晰。

在OCR引擎中进行调整，可以通过以下方法：

调整OCR引擎的识别模式和字符集，使其能够正确识别中文字符。
根据OCR引擎的错误信息进行调整，例如进行字符训练或调整识别算法