当我们手动执行脚本没有问题时,我们认为万事OK了。其实不然放入crontab之后缺少各种东西。我的业务是使用hive中原始表当数据源,创建一个临时表,将数据原的数据清洗一遍放入临时表,再使用sqoop将临时表的数据导入到Mysql中。首先我的hive表是orc文件压缩格式,sqoop无法直接..
分类:
数据库 时间:
2016-06-09 01:06:11
阅读次数:
324
相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。
目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的作用。
本文将重点讲解ORC文件存储格式,Parquet暂不深入说明,后续抽时间整理。...
分类:
其他好文 时间:
2016-05-22 12:25:37
阅读次数:
230
在实际使用 tesseract-orc 识别库的时候,初次制作的识别库很有可能识别率不太理想,需要后期慢慢补充 本文演示如何将多个修正过的box文件合并成一个识别库。 首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典 假设已存在如下样品图片和修正过的box文件: ...
分类:
其他好文 时间:
2016-05-15 02:14:02
阅读次数:
151
本文使用图片方式记录使用 jTessBoxEditor 一站式生成自动文件的方式 首先感谢 Tesseract OCR 讨论群 389402579 的管理员【创世倾城 QQ:457606663】 的帮助 ...
分类:
其他好文 时间:
2016-05-06 02:07:22
阅读次数:
496
在实际使用 tesseract-orc 识别库的时候,初次制作的识别库很有可能识别率不太理想,需要后期慢慢补充 本文演示如何将多个修正过的box文件合并成一个识别库。 首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典 假设已存在如下样品图片和修正过的box文件: ...
分类:
其他好文 时间:
2016-05-02 07:04:02
阅读次数:
146
关于PDO首先我们应该了解下什么是PDO: php data object 即数据的抽象层,我们理解为php里数据库的抽象层;其诞生的意义在于,有效的解决了数据跨不同数据库的不兼容问题,提高了开发效率,使数据迁移变得简单高效; 在学习PDO时我们要时刻牢记PDO的三大特性: 跨数据库操作、比如orc ...
分类:
其他好文 时间:
2016-04-24 14:06:38
阅读次数:
202
本文主要使用Hive引擎对比测试了两种业界较为认可的列式存储格式——ORC和Parquet,并使用Text存储格式做对比,设置了星状模型、扁平式宽表,嵌套式宽表等多种场景进行测试,以供感兴趣的同学参考。...
分类:
其他好文 时间:
2016-04-19 19:41:57
阅读次数:
236
概述 采用Event Bus模式(事件总线),可以使观察者模式中的观察者和被观察者实现解耦。 在.Net 中使用观察者模式,可以使用事件(委托)和接口(类)。Orchard Event Bus使用的是接口的形式,这样方便将“观察者”注册到Autofac容器中。EventsModule模块是构成Orc ...
分类:
其他好文 时间:
2016-03-26 12:12:39
阅读次数:
218
已验证。要求:A.数据库表中的一个字符串 可能含有"+" 例:ORC+001 也可能不含“+” B.要求如果该字符串含有“+”,则取“+”之前的字符 例:ORC+001 取ORC C.如果该字符串不含"+",则直接取该字符串。 解答:利用ORACLE中 INSTR,SUBSTR以及CASE ...
分类:
数据库 时间:
2015-12-22 17:51:58
阅读次数:
595
因为踩了两个小时坑 特别是在配置依赖tesseract-ORC识别库时候的问题 特别麻烦一定要用brewhome一定要用brewhome一定要用brewhome重要的事情说三遍。刚开始我在网上查了一下依赖的关系,觉得不是很难 然后 去下载源码下来编译 各种出问题。最后也没能解决,所以推荐盆友们还是 ...
分类:
系统相关 时间:
2015-11-15 14:51:10
阅读次数:
1477