码迷,mamicode.com
首页 >  
搜索关键字:ORC    ( 1552个结果
crontab 定时 hive2Mysql4sqoop
当我们手动执行脚本没有问题时,我们认为万事OK了。其实不然放入crontab之后缺少各种东西。我的业务是使用hive中原始表当数据源,创建一个临时表,将数据原的数据清洗一遍放入临时表,再使用sqoop将临时表的数据导入到Mysql中。首先我的hive表是orc文件压缩格式,sqoop无法直接..
分类:数据库   时间:2016-06-09 01:06:11    阅读次数:324
Hive ORC和Parquet
相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。 目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的作用。 本文将重点讲解ORC文件存储格式,Parquet暂不深入说明,后续抽时间整理。...
分类:其他好文   时间:2016-05-22 12:25:37    阅读次数:230
tesseract-orc 合并识别结果
在实际使用 tesseract-orc 识别库的时候,初次制作的识别库很有可能识别率不太理想,需要后期慢慢补充 本文演示如何将多个修正过的box文件合并成一个识别库。 首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典 假设已存在如下样品图片和修正过的box文件: ...
分类:其他好文   时间:2016-05-15 02:14:02    阅读次数:151
使用 jTessBoxEditor 生成 tesseract-orc 的字典
本文使用图片方式记录使用 jTessBoxEditor 一站式生成自动文件的方式 首先感谢 Tesseract OCR 讨论群 389402579 的管理员【创世倾城 QQ:457606663】 的帮助 ...
分类:其他好文   时间:2016-05-06 02:07:22    阅读次数:496
tesseract-orc 合并识别结果
在实际使用 tesseract-orc 识别库的时候,初次制作的识别库很有可能识别率不太理想,需要后期慢慢补充 本文演示如何将多个修正过的box文件合并成一个识别库。 首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典 假设已存在如下样品图片和修正过的box文件: ...
分类:其他好文   时间:2016-05-02 07:04:02    阅读次数:146
[麦先生]浅谈学习PDO之了解PDO
关于PDO首先我们应该了解下什么是PDO: php data object 即数据的抽象层,我们理解为php里数据库的抽象层;其诞生的意义在于,有效的解决了数据跨不同数据库的不兼容问题,提高了开发效率,使数据迁移变得简单高效; 在学习PDO时我们要时刻牢记PDO的三大特性: 跨数据库操作、比如orc ...
分类:其他好文   时间:2016-04-24 14:06:38    阅读次数:202
Parquet与ORC性能测试报告
本文主要使用Hive引擎对比测试了两种业界较为认可的列式存储格式——ORC和Parquet,并使用Text存储格式做对比,设置了星状模型、扁平式宽表,嵌套式宽表等多种场景进行测试,以供感兴趣的同学参考。...
分类:其他好文   时间:2016-04-19 19:41:57    阅读次数:236
Orchard源码分析(4.3):Orchard.Events.EventsModule类(Event Bus)
概述 采用Event Bus模式(事件总线),可以使观察者模式中的观察者和被观察者实现解耦。 在.Net 中使用观察者模式,可以使用事件(委托)和接口(类)。Orchard Event Bus使用的是接口的形式,这样方便将“观察者”注册到Autofac容器中。EventsModule模块是构成Orc ...
分类:其他好文   时间:2016-03-26 12:12:39    阅读次数:218
oracle截取字符串(截取某个字符前面的字符串)
已验证。要求:A.数据库表中的一个字符串 可能含有"+" 例:ORC+001 也可能不含“+” B.要求如果该字符串含有“+”,则取“+”之前的字符 例:ORC+001 取ORC C.如果该字符串不含"+",则直接取该字符串。 解答:利用ORACLE中 INSTR,SUBSTR以及CASE ...
分类:数据库   时间:2015-12-22 17:51:58    阅读次数:595
关于在 mac上配置pytesseract的相关问题
因为踩了两个小时坑 特别是在配置依赖tesseract-ORC识别库时候的问题 特别麻烦一定要用brewhome一定要用brewhome一定要用brewhome重要的事情说三遍。刚开始我在网上查了一下依赖的关系,觉得不是很难 然后 去下载源码下来编译 各种出问题。最后也没能解决,所以推荐盆友们还是 ...
分类:系统相关   时间:2015-11-15 14:51:10    阅读次数:1477
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!