HBase概念学习（四）Java API之扫描和过滤器

时间：2017-07-20 16:27:21 阅读：179 评论：0 收藏：0 [点我收藏+]

HBase主要的CRUD操作就不多介绍了，无非就是Put，Get。Delete三个类的运用。

本文相当于是阅读HBase权威指南的总结。

一、扫描（Scan）

如今看一下扫描技术，这样的技术类似于关系型数据库的游标（cursor），并利用到了HBase底层顺序存储的特性。

使用扫描的一般步骤是：

1、创建Scan实例 2、为Scan实例添加扫描的限制条件 3、调用HTable的getScanner()方法获取ResultScanner对象,假设通过HTablePool的方式，则是调用HTablePool的getScanner方法。（注意。HTable类实现了HTableInterface接口，这个接口用于与单个HBase表通信。

） 4、迭代ResultScanner对象中的Result对象訪问扫描结果行。

以下分别解说每个步骤：

（1）创建Scan实例：

构造方法例如以下：

技术分享

能够创建定义了起始行健和结束行健的Scan对象，返回的包括定义的起始行。可是不包括结束行。

能够创建定义了过滤器的Scan对象，过滤器的内容稍后介绍。

也能够创建空白的Scan对象。

（2）创建好Scan对象之后，还能够添加很多其它的扫描限制条件：

比方能够限制返回数据的列族，也能够限制返回数据的列：

技术分享

还能够限制返回结果的时间戳，时间范围，甚至限定仅仅返回每一列的一些特定版本号：

技术分享

除此之外还能够设置过滤器，起始行，结束行等：

技术分享

注意：上述全部Scan类的方法返回的都是Scan对象，使用的是Builder模式。能够再一行代码中同一时候设置多个限制条件。

（3）以下就能够获取ResultScanner对象：

技术分享

（4）返回ResultScannner对象之后就能够開始迭代了：

能够直接转换为迭代器迭代，也能够直接用foreach语法迭代：

ResultScanner scanner=table.getScanner(scan);//运行扫描查找     
Iterator<Result> res=scanner.iterator( );//返回查询遍历器 

或者 
for(Result res: scanner)
{
    訪问Result获取行数据
}

注意：扫描操作不会通过一次RPC操作返回全部匹配的行。而是会以行为单位进行返回。

由于一次PRC操作就返回全部匹配数据的话数据量太大。会占用大量的系统资源并花费大量的时间。

1、缓存

依据上面的介绍，迭代ResultScanner的时候每一次显示或者隐式的next()方法的调用都会产生一次单独RPC请求，显然当单元格数据量较小是性能不好。

能够让一次RPC请求获取很多其它的数据。这就是扫描器缓存（Scanner caching）的作用。默认是关闭的。

能够再三个层面上打开扫描器缓存：

（1）表HTable的层面。这样由该表产生的全部扫描器实例的缓存都会生效。

（2）扫描器Scanner的层面，这样仅仅会影响当前的扫描器实例。

（3）整个client层面。须要改动hbase-site.xml配置文件，这样针对全部的Scanner实例都会生效。

设置扫描器缓存的大小就能控制每次RPC请求取回的行数了！

！

可是扫描器缓存无疑会添加client和server端的内存消耗，用户须要在少量的ROC请求次数和client以及服务端内存消耗之间找到平衡点。