一、八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储。持续8年的投入,历经8年双十一锻炼。4个PMC,6个committer,造就了国内最大最专业的HBase技术团队,其中HBase内核 ...
分类:
其他好文 时间:
2018-12-06 12:12:45
阅读次数:
226
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Spark、 Hbase、Zookeeper、Sqoop,简化了大数据 ...
分类:
其他好文 时间:
2018-12-05 22:26:39
阅读次数:
290
1.情景展示 启动kettle的Spoon.bat闪退,并没有进入kettle的启动界面。 2.原因分析 使用条件: jdk版本需>=1.6; java需配置环境变量。 如果满足了上述前提条件,问题一般出现在:kettle为Java虚拟机的内存配置过大,导致无法正常启动程序。 3.解决方案 修改Sp ...
分类:
其他好文 时间:
2018-12-05 16:20:52
阅读次数:
315
上篇博文中已经谈到,有两个流程没有讲到。一个是MetaTableAccessor.getRegionLocations,另外一个是ConnectionImplementation.cacheLocation。这一节,就让我们单独来介绍这两个流程。 首先让我们来到MetaTableAccessor.g ...
分类:
其他好文 时间:
2018-12-05 00:13:17
阅读次数:
253
首先,让我们从HTable.put方法开始。由于这一节有很多方法只是简单的参数传递,我就简单略过,但是,关键的方法我还是会截图讲解,所以希望大家尽可能对照源码进行流程分析。另外,在这一节,我单单介绍put操作在客户端的流程,毕竟,这个内容已经很多了。至于具体服务端的流程,我会在后面的章节中介绍到,欢 ...
分类:
其他好文 时间:
2018-12-04 00:10:45
阅读次数:
195
Zookeeper 什么是Zookeeper? 官网传送门 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、 ...
分类:
其他好文 时间:
2018-12-04 00:06:20
阅读次数:
205
Block Cache HBase提供了两种不同的BlockCache实现,用于缓存从HDFS读出的数据。这两种分别为: 下面我们会讨论每种方法的优点和缺点、如何对两种方式做选择,以及这两种类型的相关配置。 Cache Choices LruBlockCache是最初始的实现,并且全部存在Java堆 ...
分类:
系统相关 时间:
2018-12-03 22:58:48
阅读次数:
360
本项目是基于Spark MLLib的大数据电商推荐系统项目,使用了scala语言和java语言。基于python语言的推荐系统项目会另外写一篇博客。在阅读本博客以前,需要有以下基础:1.linux的基本命令2.至少有高中及以上的数学基础。3.至少有java se基础,会scala语言和Java
EE更佳(Jave EE非必需,但是可以帮助你更快理解项目的架构)。4.有github账户,并且至少知道git clone,fork,branch的概念。5。有网络基础,至少知道服务器端和客户端的区别。6.有大数据基础,最好会Hadoop,HDFS,MapReduce,Sqoop,HBase,Hive,Spark,Storm。7.有mysql数据库基础,至少会最基本的增删改查。
分类:
其他好文 时间:
2018-12-03 20:00:55
阅读次数:
697
(1)分布式、多版本、面向列的开源数据库 (2)支持上亿行、百万列; (3)强一致性、高扩展、高可用 Hbase是一个强一致性数据库,不是“最终一致性”数据库。 HBase数据读写,更新的数据是放在Memstore,只有当Memstore里的数据达到阈值,或者时间达到阈值,就会flush到磁盘上,生 ...
分类:
其他好文 时间:
2018-12-03 13:55:31
阅读次数:
221