最近在做binlog日志采集同步到数据平台的事。刚开始需要借助sqoop将从库数据表数据初始化到hbase中,整个过程都需要自动化进行,尽量减少人为干预。但是,由于历史原因,线上存在两种字符集格式的数据库(表),而导入到hbase的数据我们需要统一采用utf-8格式存储。sqoop直接导入的话,没法控制中文字符转码工作。所以需要对sqoop源码进行简单改动支持这种方式。
大体思路是,通过定义一个...
分类:
数据库 时间:
2014-09-11 19:26:02
阅读次数:
573
方法1: /** * 添加一行数据 * * @param tableName * 表名 * @param columnFamily * 列族名 * @param rowKey * ...
分类:
其他好文 时间:
2014-09-10 17:09:30
阅读次数:
493
一、Split触发条件
1、 有任一一个Hfile的大小超过默认值10G时,都会进行split
2、 达到这个值不在拆分,默认为int_max,不进行拆分
3、compaction时,如果compact的store的大小超过了,则进行split
4、 flush之前会检测区域中HStoreFile数目是否超过hbase.h...
分类:
其他好文 时间:
2014-09-10 10:52:00
阅读次数:
266
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据, 直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的reg...
分类:
其他好文 时间:
2014-09-09 17:40:49
阅读次数:
203
package org.robby;
import java.io.IOException;
import java.text.DateFormat;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.HashSet;
i...
分类:
其他好文 时间:
2014-09-09 13:26:48
阅读次数:
211
sqoop 导入 hive
hive.HiveImport: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.EncodingUtils.setBit(BIZ)B
ERROR tool.ImportTool: Encountered IOException running import ...
分类:
编程语言 时间:
2014-09-08 03:15:26
阅读次数:
432
写在前面在这次的审稿过程中有幸得到了Ted Yu和梁堰波先生的反馈,大家就一些感兴趣的内容进行了讨论。该方案由一个智能交通解决方案演变而来,设计之初仅寄希望于通过二级索引提升查询性能,由于在前期架构时充分考虑了通用性以及对复杂条件的支持,在后来的演变中逐渐被剥离出来形成了一个通用的查询引擎。Ted ...
分类:
其他好文 时间:
2014-09-07 14:46:35
阅读次数:
308
从 NOSQL的类型到 常用的产品,我们已经做过很多关于NoSQL的文章,今天我们从国内著名的互联网公司及科研机构的实战谈一下NoSQL数据库。 NoSQL一定程度上是基于一个很重要的原理—— CAP原理提出来的。传统的SQL数据库(关系型数据库)都具有ACID属性,对一致性要求很高,因此降低了A....
分类:
数据库 时间:
2014-09-05 19:53:41
阅读次数:
331
HBase查询引擎——Phoenix的使用
介绍:Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。更多参考官网:http://phoenix.apache.org/...
分类:
其他好文 时间:
2014-09-05 16:14:01
阅读次数:
314