一.Client 包含访问HBase的接口并维护cache来加快对HBase的访问。 二.Zookeeper 1.保证任何时候,集群中只有一个master。 2.存储所有Region的寻址入口。 3.实时监控Region server的上线和下线信息,并实时通知Master。 4.存储HBase的s ...
分类:
其他好文 时间:
2019-03-26 19:43:12
阅读次数:
190
Hbase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这三个维度可以对HBase中的数据进行快速定位。 Hbase中Rowkey可以唯一标识一行记录,在Hbase查询的时候,有以下几种方式: 1、通过 ...
分类:
其他好文 时间:
2019-03-26 16:42:03
阅读次数:
165
引言 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的架构通过冗余服务实现高 ...
分类:
其他好文 时间:
2019-03-26 13:23:24
阅读次数:
137
Kettle简介 Kettle(网地址为http://kettle.pentaho.org/)是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一 ...
分类:
数据库 时间:
2019-03-26 01:16:11
阅读次数:
686
一、HBASE本地模式:1、首先安装hadoop、jdk2、导入hbase-1.2.5-bin.tar.gz包3、解压:tar -zxvf hbase-1.2.5-bin.tar.gz4、配置环境变量 5、source /etc/profile生效6、配置java——home 7、进入hbase-1 ...
分类:
其他好文 时间:
2019-03-25 17:52:57
阅读次数:
169
Coprocessor方式二级索引 1. Coprocessor提供了一种机制可以让开发者直接在RegionServer上运行自定义代码来管理数据。通常我们使用get或者scan来从Hbase中获取数据,使用Filter过滤掉不需要的部分,最后在获得的数据上执行业务逻辑。但是当数据量非常大的时候,这 ...
分类:
其他好文 时间:
2019-03-25 14:58:31
阅读次数:
146
摘要 Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。 应用场景 2.1 将ETL操作的数据存入HBase 2.2 HBase作为Hive的数据源 2.3 构建低延时的... ...
分类:
其他好文 时间:
2019-03-23 22:23:11
阅读次数:
167
参与方式:https://github.com/apachecn/hbase doc zh/blob/master/CONTRIBUTING.md 整体进度:https://github.com/apachecn/hbase doc zh/issues/1 项目仓库:https://github.c ...
分类:
其他好文 时间:
2019-03-22 22:45:59
阅读次数:
158
Hbase知识点总结: hbase表中为什么列族的数量不能太多? 因为当一个列族数据溢写的时候,其他列族也会发生数据溢写,但是其他列族中数据的数量还没有达到溢写的阈值,就会导致产生的小文件数量增多.而hbase有小文件合并操作,小文件数量增多就会导致合并次数增多,从而使io资源消耗量增多。hbase ...
分类:
其他好文 时间:
2019-03-16 16:46:53
阅读次数:
199
1、查看 HBase 的 MapReduce 任务的执行 $ bin/hbase mapredcp 2、执行环境变量的导入 $ export HBASE_HOME= ~/hadoop_home/hbase-1.2.6$ export HADOOP_HOME= ~/hadoop_home$ expor ...
分类:
其他好文 时间:
2019-03-16 09:47:30
阅读次数:
232