为什么要有HBase? Hadoop生态圈中有了Hive,Hive可以像关系型数据库那样操作数据,那么为什么还要有HBase? 首先HBase是一个非关系型数据库,是用于存储数据的,Hive是用于处理数据的。 Hive操作数据时虽然可以像关系型数据库那样操作,但Hive只是一个操作工具,而非一个针对 ...
分类:
其他好文 时间:
2019-08-20 01:19:17
阅读次数:
62
为什么要有Sqoop? 将数据从别的数据库导到Hadoop、Hbase或Hive太麻烦了。 什么是Sqoop? Sqoop就是Hadoop、Hive、HBase等数据仓库与数据库之间传输数据的工具。,就是将导入(输入)和导出(输出)的命令映射成MR程序。 导入:MySQL等数据库数据导入到HDFS、 ...
分类:
其他好文 时间:
2019-08-20 01:07:48
阅读次数:
88
1. 首先创建一个支持多版本的hbase表 create 'dsi2018s03:testVersion',{NAME => 'f1', VERSIONS => 2} 2.put几条测试数据 put 'dsi2018s03:testVersion','10001','f1:name','jack1' ...
分类:
其他好文 时间:
2019-08-18 12:07:37
阅读次数:
269
业务上可能会遇到这种情况,在最初创建hbase表时候,未指定压缩方式,当数据导入之后,由rowkey带来的数据膨胀导致hdfs上的数据大小远远大于原始数据大小。所以这时候可能就不得不考虑使用压缩,但是如果将表删除,再创建一张指定压缩的表,再重新导入数据未免太浪费时间。当然也完全不用这样,可以直接修改 ...
分类:
其他好文 时间:
2019-08-18 11:39:27
阅读次数:
133
持久化 redis将所有数据保持在内存中,对数据的更新将异步地保存在磁盘中 快照 MySQL Dump ,Redis RDB 日志 MySQL Binlog Hbase HLog Redis AOF RDB的触发方式 save同步在save的同时,其他命令会阻塞等待如果存在老的RDB文件,会先创建一 ...
分类:
其他好文 时间:
2019-08-17 23:59:27
阅读次数:
176
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关 ...
分类:
其他好文 时间:
2019-08-15 14:27:18
阅读次数:
69
sqoop数据迁移 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 工作机制 将导入或导出 ...
分类:
其他好文 时间:
2019-08-15 09:20:19
阅读次数:
76
【编者按】林昊(毕玄),阿里巴巴研发效能事业部负责人。2007年加入阿里,10年间打造了阿里目前使用最为广泛的核心中间件之一的服务框架;建设了阿里的HBase团队,发展到今天HBase已经是阿里最重要的NoSQL产品;打造阿里基于LXC的虚拟化系统,以及集群资源管理系统,不断降低阿里巴巴在机器资源上 ...
分类:
其他好文 时间:
2019-08-14 16:53:57
阅读次数:
79
在日志(身为小白白的我,一开始日志在哪我都不知道!路径:/usr/local/hadoop/app/hbase-0.98.8/logs/hbase-hadoop-master-Master.log(也就是安装hbase下的logs文件夹中))中寻找到错误的原因,如下图: 产生错误的原因:zookee ...
分类:
其他好文 时间:
2019-08-14 16:51:17
阅读次数:
242