需要用到的程序(1) Tesseract 3.00(2) Tesseract 3.00 Bugfix(3) CowBoxer 1.01(4) Universal Extractor 1.61 (非必需)使用 Universal Extractor 将 Tesseract 的安装包解开,再用 Bugf ...
分类:
编程语言 时间:
2016-05-15 00:26:56
阅读次数:
531
转自:http://blog.csdn.net/feihu521a/article/details/8433077 Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言 ...
分类:
其他好文 时间:
2016-05-14 22:53:58
阅读次数:
304
本文前半部分是来自http://www.qisanfen.com/?p=185的一篇文章,主要讲了安装、训练的大致流程,注意如果需要训练语言库需要把所需要的库安装完整
后半部分大致是官方wiki的翻译版本
如果只安装,不训练,可以看我的另一篇比较简洁的文章http://blog.csdn.net/yimingsilence/article/details/51276138
关于训...
分类:
编程语言 时间:
2016-05-12 20:32:38
阅读次数:
1999
本文使用图片方式记录使用 jTessBoxEditor 一站式生成自动文件的方式 首先感谢 Tesseract OCR 讨论群 389402579 的管理员【创世倾城 QQ:457606663】 的帮助 ...
分类:
其他好文 时间:
2016-05-06 02:07:22
阅读次数:
496
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。 Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。 ...
分类:
其他好文 时间:
2016-05-05 17:39:33
阅读次数:
128
需求:识别图片中的文字信息环境:windows系统 开发语言:python 使用工具类:1.pyocr 2.PIL 3.tesseract-ocr 步骤: 1.pyocr 网络通直接使用命令:pip install pyocr 网络不通,转至https://pypi.python.org/pypi/ ...
分类:
编程语言 时间:
2016-05-05 17:36:58
阅读次数:
380
在使用语音库时候 遇到报错:allow_blob_division,例如使用chi_sim.traineddata;在chi_sim.traineddata文件目录下,使用命令行执行:combine_tessdata -e chi_sim.traineddata chi_sim.config执行完后 ...
分类:
编程语言 时间:
2016-05-05 11:02:32
阅读次数:
317
在实际使用 tesseract-orc 识别库的时候,初次制作的识别库很有可能识别率不太理想,需要后期慢慢补充 本文演示如何将多个修正过的box文件合并成一个识别库。 首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典 假设已存在如下样品图片和修正过的box文件: ...
分类:
其他好文 时间:
2016-05-02 07:04:02
阅读次数:
146
注意:下面的下载网址和版本有更新的以最新的为准
1. 在ubuntu下可以自动安装
[html] view
plain copy
sudo apt-get install tesseract-ocr
2.编译安装
a.编译环境: gcc gcc-c++ make(这个环境一般...
分类:
系统相关 时间:
2016-04-29 15:30:50
阅读次数:
386
安装Tesseract-OCR 1. leptonica 需要源码编译安装http://www.leptonica.org/ leptonica 包: leptonica-1.73.tar.gz 解压后切换到leptonica-1.68 根目录 ./configure make make insta ...
分类:
系统相关 时间:
2016-03-28 21:46:29
阅读次数:
469