您的位置:

tesseract安装指南

一、tesseract安装教程

tesseract是一个免费的OCR引擎,支持70多种语言的文本识别。通过安装tesseract,您可以使用Python等编程语言中提供的接口来识别文本并进行相关的处理。下面是tesseract的安装步骤:

1、下载安装程序

wget https://github.com/tesseract-ocr/tesseract/releases/download/4.1.1/tesseract-4.1.1.tar.gz
tar -zxvf tesseract-4.1.1.tar.gz
cd tesseract-4.1.1
./configure
make
make install

2、安装语言包

wget https://github.com/tesseract-ocr/tessdata_best/raw/master/eng.traineddata
cp eng.traineddata /usr/local/share/tessdata/

3、测试tesseract安装是否成功

tesseract test.png result -l eng
cat result.txt

二、tesseract安装错误 pip

如果使用pip安装tesseract出现错误,可以尝试以下操作:

1、先安装leptonica:

brew install leptonica

2、再用pip安装tesseract:

pip install tesseract-ocr

三、tesseract安装包

如果需要在离线环境下安装tesseract,可在安装tesseract的机器上进行以下操作:

1、下载tesseract安装包和语言包:

wget https://github.com/tesseract-ocr/tesseract/releases/download/4.1.1/tesseract-4.1.1.tar.gz
wget https://github.com/tesseract-ocr/tessdata_best/raw/master/eng.traineddata

2、将tesseract安装包和语言包拷贝到目标机器上,并解压安装包:

tar -zxvf tesseract-4.1.1.tar.gz

3、在目标机器上安装tesseract:

cd tesseract-4.1.1
./configure
make
make install

4、将语言包拷贝到安装目录下:

cp eng.traineddata /usr/local/share/tessdata/

四、tesseract安装时报错

在安装tesseract过程中,可能会遇到一些错误,例如:

1、configure: error: Leptonica library not found

解决方法:

brew install leptonica

2、configure: error: autoreconf not found

解决方法:

brew install autoconf automake libtool

五、tesseract安装版本

tesseract有多个版本可供选择,例如4.1.1、4.0.0等。我们建议安装最新版本的tesseract,保持与开发者社区的同步。

六、tesseract ocr安装

tesseract ocr是tesseract的一个扩展,使得tesseract可用于识别图像中的文本。安装方法和安装tesseract基本相同。

wget https://github.com/tesseract-ocr/tesseract/releases/download/4.1.1/tesseract-ocr-4.1.1.tar.gz
tar -zxvf tesseract-ocr-4.1.1.tar.gz
cd tesseract-ocr-4.1.1
./configure
make
make install

七、tesseract安装包下载

除了从官网下载tesseract安装包之外,您还可以从以下几个网站进行下载:

1、https://sourceforge.net/projects/tesseract-ocr-alt/files/

2、https://github.com/tesseract-ocr/tesseract/releases

八、tesseract安装与配置

安装tesseract后,需要进行相应的配置才能正常使用。下面是一些常见的配置方法:

1、设置环境变量

echo "export TESSDATA_PREFIX=/usr/local/share/" >> ~/.bash_profile
source ~/.bash_profile

2、设置别名

echo "alias tesseract='tesseract --psm 6'" >> ~/.bash_profile
source ~/.bash_profile

九、tesseract安装经常错误

如果您在安装tesseract时经常遇到错误,可以尝试从以下几个方面入手:

1、查看日志文件 /var/log/pkgs.log

2、清理缓存

brew cleanup

3、重新安装依赖库

brew uninstall --ignore-dependencies jpeg libpng libtiff leptonica
brew install jpeg libpng libtiff leptonica

十、tesseract安装字库选取

tesseract支持多个语言字库,您可以根据自己的需求选择相应的字库下载,并进行安装。