pytesseract主要函数用法
-
pytesseract.image_to_string(image, lang=None, config='', nice=0, output_type=Output.STRING)
- image: PIL.Image对象或者是图片的路径字符串
- lang: 识别的语言,默认为'eng',支持多种语言,如'chi_sim'(简体中文)、'chi_tra'(繁体中文)、'jpn'(日语)等
- config: 配置字符串,用于设置识别参数,例如'--psm 6'表示使用自适应分页模式
- nice: 优先级,范围为-20至19,越大的值越高
- output_type: 输出类型,可选值有Output.STRING(默认)、Output.DICT(返回字典)、Output.BYTES(返回二进制数据)
-
pytesseract.image_to_data(image, lang=None, config='', nice=0, output_type=Output.DICT)
- image: PIL.Image对象或者是图片的路径字符串
- lang: 识别的语言,默认为'eng',支持多种语言,如'chi_sim'(简体中文)、'chi_tra'(繁体中文)、'jpn'(日语)等
- config: 配置字符串,用于设置识别参数,例如'--psm 6'表示使用自适应分页模式
- nice: 优先级,范围为-20至19,越大的值越高
- output_type: 输出类型,可选值有Output.STRING(默认)、Output.DICT(返回字典)、Output.BYTES(返回二进制数据)
- 返回结果类型为list,每一行都是一个字典,包含以下字段:level、page_num、block_num、par_num、line_num、word_num、left、top、width、height、conf、text
-
pytesseract.image_to_osd(image, lang=None, config='', nice=0, output_type=Output.STRING)
- image: PIL.Image对象或者是图片的路径字符串
- lang: 识别的语言,默认为'eng',支持多种语言,如'chi_sim'(简体中文)、'chi_tra'(繁体中文)、'jpn'(日语)等
- config: 配置字符串,用于设置识别参数,例如'--psm 6'表示使用自适应分页模式
- nice: 优先级,范围为-20至19,越大的值越高
- output_type: 输出类型,可选值有Output.STRING(默认)、Output.DICT(返回字典)、Output.BYTES(返回二进制数据)
-
pytesseract.run_and_get_output(image, lang=None, config='', nice=0)
- image: PIL.Image对象或者是图片的路径字符串
- lang: 识别的语言,默认为'eng',支持多种语言,如'chi_sim'(简体中文)、'chi_tra'(繁体中文)、'jpn'(日语)等
- config: 配置字符串,用于设置识别参数,例如'--psm 6'表示使用自适应分页模式
- nice: 优先级,范围为-20至19,越大的值越高
- 返回结果为识别的字符串
-
pytesseract.get_languages(config='')
- config: 配置字符串,用于设置识别参数,例如'--psm 6'表示使用自适应分页模式
- 返回支持的语言列表
-
pytesseract.get_tesseract_version()
- 返回安装的Tesseract版本号
-
pytesseract.pytesseract.tesseract_cmd = 'tesseract'
- 设置Tesseract命令的路径,如果没有设置,默认为'tesseract'
原文地址: http://www.cveoy.top/t/topic/glt 著作权归作者所有。请勿转载和采集!