Ubuntu下的安装步骤: (setup steps under ubuntu )

1.安装对应的lib (install the libs)

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libleptonica  # install leptonica

其实本来还应该装这些的,只不过有些电脑自带有这些,还是装一下安全,反正如果装有的,会跳过的
  sudo apt-get install  gcc

  sudo apt-get install  g++

  sudo apt-get install  automake

(这样步骤后,我的的执行./configure还是提示没有找到leptoniaca库,于是我自己的链接下载了
安装包http://leptonica.org/download.html。先装上再试试看吧。这个不会解决问题的话还真是恼火呢,搞了半天了,都没搞定,原因是在tesseract文件夹下面执行./configure 的时候
提示leptonica library missing这个错误baidu。google都不好用,最后还是在FAQ上面找到了答案

leptonica library missing

If get this error message when you run ./configure and your leptonica header files are located in /usr/local/include (e.g. you installed leptonica to /usr/local) than run:

LIBLEPT_HEADERSDIR=/usr/local/include ./configure

or:

CPPFLAGS="-I/usr/local/include" LDFLAGS="-L/usr/local/lib" ./configure

 

继续试试看吧。。。

哎哟,,还是第二个命令有效,终于过了,不容易啊。

 

2. install tesseract 3.00

 $ wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz 
$tar zxvf tesseract-3.00.tar.gz 
$ cd tesseract-3.00  && ./configure && make && sudo make install

3. 安装中文字库 (install Chinese lib )

$ wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz
$ gunzip chi_sim.traineddata.gz
$ sudo cp chi_sim.traineddata /usr/local/share/tessdata/
在这一步中,我先安装了英文字库到/usr/local/share/tessdata/目录下面得,可是在运行测试文件爱你的额时候出现如下错误:
gzw@gzw-laptop:~/openhw/tesscract/tesseract-3.01$ tesseract phototest.tif phototest -l eng
tesseract: error while loading shared libraries: libtesseract.so.3: cannot open shared object file: No such file or directory

于是又搜索了下解决办法:

./tests: error while loading shared libraries: xxx.so.0:cannot open shared object file: No such file or directory
出现这类错误表示,系统不知道xxx.so放在哪个目录下,这时候就要在/etc/ld.so.conf中加入xxx.so所在的目录。

一般而言,有很多的so会存放在/usr/local/lib这个目录底下,去这个目录底下找,果然发现自己所需要的.so文件。

所以,在/etc/ld.so.conf中加入/usr/local/lib这一行,保存之后,再运行:/sbin/ldconfig –v更新一下配置即可。

继续尝试中。。。。。。

果不其然,这个方法可行。


1

tesseract phototest.tif phototest -l eng

 输出:

1

Tesseract Open Source OCR Engine v3.01 with Leptonica

2

Page 0

 这时应该在当前目录生成一个phototest.txt 文本文件,内容就是phototest.tif 显示的文字.

 、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、
分割线。。。。。。。。。。。。。。。。
晚上试了下中文的,也都是可以用的,而且识别率其实很高,当然图片是清晰的,不清晰的没试过。
初步想看看他的源代码。不过感觉内容有点庞大的哦。。我了过去哦。。。

4. 把图片转换成tif 格式,然后使用: (usage)

$ tesseract apple.tif result -l chi_sim 

注意的几点: (NOTICE)
1. 速度比较慢。 不过可以忍受,免费的么。  (slow, but it doesn't matter, what I care is  tesseract is free )
2. 图片的文字要做到水平。如果你的图片文字是斜的,会影响效果,建议先用“旋转”功能把图片处理一下。 ( if your text is not vertical, you have to make some changes to the image using "notation" tools or something )