版本 HDP:3.0.1.0 HBase:2.0.0 一、前言 之前的文章也提到过,最近工作中需要对HBase进行二次开发(参照HBase的AES加密方法,为HBase增加SMS4数据加密类型)。研究了两天,终于将开发流程想清楚并搭建好了debug环境,所以就迫不及待地想写篇文章分享给大家。 <! ...
分类:
其他好文 时间:
2020-01-26 17:45:45
阅读次数:
85
os 就是operation system os.name Python 运行所在的环境: posix,nt,java os.environ os.walk() os.listdir() “list directories”,列出(当前)目录下的全部路径(及文件) os.mkdir() “make ...
分类:
编程语言 时间:
2020-01-25 23:29:18
阅读次数:
84
Hbase:基于hdfs的数据库,来源于google的一篇论文bigtable.基于HDFS实现高可用、分布式、列式存储、核心包括:-Rowkey: 可以简单理解成mysql中的主键-列簇,列-时间戳按照Rowkey字典顺序存储,基于rowkey的高效检索,同时继承hdfs的高吞吐能力。Hbase用 ...
分类:
其他好文 时间:
2020-01-25 15:31:49
阅读次数:
94
大数据环境需要的安装包合集,包括: apache flume 1.7.0 bin.tar.gz apache hive 1.2.1 bin.tar.gz hadoop 2.7.2.tar.gz hbase 1.3.1 bin.tar.gz jdk 8u144 linux x64.tar kafka_ ...
分类:
其他好文 时间:
2020-01-24 17:25:13
阅读次数:
88
1、pom.xml 版本号 <properties> <hbase.version>2.2.2</hbase.version> <hadoop.version>2.10.0</hadoop.version> <spark.version>2.4.2</spark.version> </propert ...
分类:
其他好文 时间:
2020-01-22 12:57:25
阅读次数:
62
一 描述thrift(个人英语飘过六级,翻译的肯定不是很准确,请谅解。) Apache thrift框架,旨在处理扩语言的开发服务,它结合代码生产引擎的软件栈,构建高效地和无缝地运行在C++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C#, C ...
分类:
其他好文 时间:
2020-01-18 19:37:24
阅读次数:
82
1、认识Hadoop和Hbase 1.1 hadoop简单介绍 Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作。Hadoop旨在从单一服务 ...
分类:
其他好文 时间:
2020-01-16 13:00:17
阅读次数:
97
接下来记录一下HBase存储原理相关的知识,理解尚浅,后续再补充。 索引 hbase中没有索引,但是mysql有,区别在于mysql是行级存储,hbase是列级存储,索引对行级存储有意义,对于列级存储意义不大。 如下图所示,不管是mysql还是hbase,最终数据都会落地成文件,当给行级存储建立索引 ...
分类:
其他好文 时间:
2020-01-16 01:15:32
阅读次数:
86
HBase行健的设计 在设计HBase表的时候,行健是唯一重要的事情。应该基于预期的访问模式来为行健进行建模 行健决定了访问HBase表时可以得到的性能。这个结论根植于两个事实: 1、region基于行健为一个区间的行提供服务,并且负责区间内的每一行。 2、HFile在硬盘上存储有序的行。 当reg ...
分类:
其他好文 时间:
2020-01-16 01:05:01
阅读次数:
74
1 Hbase特点 容量大:Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个纬度所支持的数据量级都非常具有弹性。 面向列 :Hbase是面向列的存储和权限控制,并支持独立检索。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能大大减少读取的数据量。 多版本: H ...
分类:
其他好文 时间:
2020-01-15 19:57:46
阅读次数:
78