一、tesseract安装教程
tesseract是一个免费的OCR引擎,支持70多种语言的文本识别。通过安装tesseract,您可以使用Python等编程语言中提供的接口来识别文本并进行相关的处理。下面是tesseract的安装步骤:
1、下载安装程序
wget https://github.com/tesseract-ocr/tesseract/releases/download/4.1.1/tesseract-4.1.1.tar.gz
tar -zxvf tesseract-4.1.1.tar.gz
cd tesseract-4.1.1
./configure
make
make install
2、安装语言包
wget https://github.com/tesseract-ocr/tessdata_best/raw/master/eng.traineddata
cp eng.traineddata /usr/local/share/tessdata/
3、测试tesseract安装是否成功
tesseract test.png result -l eng
cat result.txt
二、tesseract安装错误 pip
如果使用pip安装tesseract出现错误,可以尝试以下操作:
1、先安装leptonica:
brew install leptonica
2、再用pip安装tesseract:
pip install tesseract-ocr
三、tesseract安装包
如果需要在离线环境下安装tesseract,可在安装tesseract的机器上进行以下操作:
1、下载tesseract安装包和语言包:
wget https://github.com/tesseract-ocr/tesseract/releases/download/4.1.1/tesseract-4.1.1.tar.gz
wget https://github.com/tesseract-ocr/tessdata_best/raw/master/eng.traineddata
2、将tesseract安装包和语言包拷贝到目标机器上,并解压安装包:
tar -zxvf tesseract-4.1.1.tar.gz
3、在目标机器上安装tesseract:
cd tesseract-4.1.1
./configure
make
make install
4、将语言包拷贝到安装目录下:
cp eng.traineddata /usr/local/share/tessdata/
四、tesseract安装时报错
在安装tesseract过程中,可能会遇到一些错误,例如:
1、configure: error: Leptonica library not found
解决方法:
brew install leptonica
2、configure: error: autoreconf not found
解决方法:
brew install autoconf automake libtool
五、tesseract安装版本
tesseract有多个版本可供选择,例如4.1.1、4.0.0等。我们建议安装最新版本的tesseract,保持与开发者社区的同步。
六、tesseract ocr安装
tesseract ocr是tesseract的一个扩展,使得tesseract可用于识别图像中的文本。安装方法和安装tesseract基本相同。
wget https://github.com/tesseract-ocr/tesseract/releases/download/4.1.1/tesseract-ocr-4.1.1.tar.gz
tar -zxvf tesseract-ocr-4.1.1.tar.gz
cd tesseract-ocr-4.1.1
./configure
make
make install
七、tesseract安装包下载
除了从官网下载tesseract安装包之外,您还可以从以下几个网站进行下载:
1、https://sourceforge.net/projects/tesseract-ocr-alt/files/
2、https://github.com/tesseract-ocr/tesseract/releases
八、tesseract安装与配置
安装tesseract后,需要进行相应的配置才能正常使用。下面是一些常见的配置方法:
1、设置环境变量
echo "export TESSDATA_PREFIX=/usr/local/share/" >> ~/.bash_profile
source ~/.bash_profile
2、设置别名
echo "alias tesseract='tesseract --psm 6'" >> ~/.bash_profile
source ~/.bash_profile
九、tesseract安装经常错误
如果您在安装tesseract时经常遇到错误,可以尝试从以下几个方面入手:
1、查看日志文件 /var/log/pkgs.log
2、清理缓存
brew cleanup
3、重新安装依赖库
brew uninstall --ignore-dependencies jpeg libpng libtiff leptonica
brew install jpeg libpng libtiff leptonica
十、tesseract安装字库选取
tesseract支持多个语言字库,您可以根据自己的需求选择相应的字库下载,并进行安装。