Hbase的region合并与拆分详解

时间：2020-02-17 17:35:33 阅读：102 评论：0 收藏：0 [点我收藏+]

标签：实现 creat ffffff prefix apach 效率 size event jpg

1、region 拆分机制

技术图片

region中存储的是大量的rowkey数据 ,当region中的数据条数过多的时候,直接影响查询效率.当region过大的时候.hbase会拆分region , 这也是Hbase的一个优点 .
HBase的region split策略一共有以下几种：
1、ConstantSizeRegionSplitPolicy
- 0.94版本前默认切分策略
当region大小大于某个阈值(hbase.hregion.max.filesize=10G)之后就会触发切分，一个region等分为2个region。
- 但是在生产线上这种切分策略却有相当大的弊端：切分策略对于大表和小表没有明显的区分。阈值(hbase.hregion.max.filesize)设置较大对大表比较友好，但是小表就有可能不会触发分裂，极端情况下可能就1个，这对业务来说并不是什么好事。如果设置较小则对小表友好，但一个大表就会在整个集群产生大量的region，这对于集群的管理、资源使用、failover来说都不是一件好事。
2、IncreasingToUpperBoundRegionSplitPolicy
- 0.94版本~2.0版本默认切分策略
- 切分策略稍微有点复杂，总体看和ConstantSizeRegionSplitPolicy思路相同，一个region大小大于设置阈值就会触发切分。但是这个阈值并不像ConstantSizeRegionSplitPolicy是一个固定的值，而是会在一定条件下不断调整，调整规则和region所属表在当前regionserver上的region个数有关系.
- region split的计算公式是：
  regioncount^3 128M 2，当region达到该size的时候进行split
  例如：
  第一次split：1^3 256 = 256MB
  第二次split：2^3 256 = 2048MB
  第三次split：3^3 256 = 6912MB
  第四次split：4^3 256 = 16384MB > 10GB，因此取较小的值10GB
  后面每次split的size都是10GB了
3、SteppingSplitPolicy
- 2.0版本默认切分策略
- 这种切分策略的切分阈值又发生了变化，相比 IncreasingToUpperBoundRegionSplitPolicy 简单了一些，依然和待分裂region所属表在当前regionserver上的region个数有关系，如果region个数等于1，
  切分阈值为flush size * 2，否则为MaxRegionFileSize。这种切分策略对于大集群中的大表、小表会比 IncreasingToUpperBoundRegionSplitPolicy 更加友好，小表不会再产生大量的小region，而是适可而止。
4、KeyPrefixRegionSplitPolicy
- 根据rowKey的前缀对数据进行分组，这里是指定rowKey的前多少位作为前缀，比如rowKey都是16位的，指定前5位是前缀，那么前5位相同的rowKey在进行region split的时候会分到相同的region中。
5、DelimitedKeyPrefixRegionSplitPolicy
- 保证相同前缀的数据在同一个region中，例如rowKey的格式为：userid_eventtypeeventid，指定的delimiter为，则split的的时候会确保userid相同的数据在同一个region中。
6、DisabledRegionSplitPolicy
- 不启用自动拆分, 需要指定手动拆分
  
  2、region合并机制

1.1 region合并说明

Region的合并不是为了性能, 而是出于维护的目的 .
比如删除了大量的数据 ,这个时候每个Region都变得很小 ,存储多个Region就浪费了 ,这个时候可以把Region合并起来，进而可以减少一些Region服务器节点

1.2 如何进行region合并

1.2.1 通过Merge类冷合并Region

执行合并前，==需要先关闭hbase集群==
创建一张hbase表：

create ‘test‘,‘info1‘,SPLITS => [‘1000‘,‘2000‘,‘3000‘]

查看表region
需求：

需要把test表中的2个region数据进行合并：
test,,1565940912661.62d28d7d20f18debd2e7dac093bc09d8.
test,1000,1565940912661.5b6f9e8dad3880bcc825826d12e81436.
这里通过org.apache.hadoop.hbase.util.Merge类来实现，不需要进入hbase shell，直接执行（==需要先关闭hbase集群==）：
hbase org.apache.hadoop.hbase.util.Merge test test,,1565940912661.62d28d7d20f18debd2e7dac093bc09d8. test,1000,1565940912661.5b6f9e8dad3880bcc825826d12e81436.
成功后界面观察

技术图片

1.2.2 通过online_merge热合并Region

==不需要关闭hbase集群==，在线进行合并
与冷合并不同的是，online_merge的传参是Region的hash值，而Region的hash值就是Region名称的最后那段在两个.之间的字符串部分。
需求：需要把test表中的2个region数据进行合并：
test,2000,1565940912661.c2212a3956b814a6f0d57a90983a8515.
test,3000,1565940912661.553dd4db667814cf2f050561167ca030.

需要进入hbase shell：

merge_region ‘c2212a3956b814a6f0d57a90983a8515‘,‘553dd4db667814cf2f050561167ca030‘

成功后观察界面
merge_region ‘c2212a3956b814a6f0d57a90983a8515‘,‘553dd4db667814cf2f050561167ca030‘
成功后观察界面

Hbase的region合并与拆分详解

标签：实现 creat ffffff prefix apach 效率 size event jpg

原文地址：https://blog.51cto.com/10312890/2471621

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

Hbase的region合并与拆分详解

2、region合并机制

1.1 region合并说明

1.2 如何进行region合并

1.2.1 通过Merge类冷合并Region

1.2.2 通过online_merge热合并Region