由于目前公司大量的数据存储在HBase中,各个业务线需要对HBase进行即时查询,但是又不方便实现自己的基于HBase Client的API的数据访问实现,他们希望能够像Hive对HDFS中的数据进行ETL一样,可以对HBase中的数据进行SQL操作 我们最初考虑的方式是Hive On HBa...
分类:
其他好文 时间:
2014-11-21 12:27:24
阅读次数:
190
Hadoop读书笔记(四)HDFS体系结构。
纯文字性描述,无图无分析,仅作个人初学习记忆和参考...
分类:
其他好文 时间:
2014-11-20 23:46:54
阅读次数:
153
一、问题定义最近在用sbt打assembly包时出现问题,在package的时候,发生jar包冲突/文件冲突问题,两个相同的class来自不同的jar包在classpath内引起冲突。具体是:我有一个self4j的jar, 还有一个hadoop-common-hdfs的jar包,其中hadoop-common-hdfs.jar内包含了self4j这个jar包,导致冲突。此类异常一般是由于打包不规范...
分类:
编程语言 时间:
2014-11-20 22:01:47
阅读次数:
314
即不同的集群在hdfs上建立不同的根目录和Zooeekper的根目录。如图所示:原来的hbase-0.94.14版本中在hdfs上目录是hbase,zookeeper的根目录是zookeeper_data。hbase-0.96.8版本中在hdfs上目录是index,zookeeper的根目录是zoo...
分类:
其他好文 时间:
2014-11-20 21:46:08
阅读次数:
146
一句话,Hive 开发比 Pig快多了...从hdfs读取数据:Hive: CREATE EXTRENAL TABLE IF NOT EXIST (domain string, num int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' loc...
分类:
其他好文 时间:
2014-11-20 13:27:34
阅读次数:
174
hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。
弹性分布式数据集(RDD)获得方式:1
并行化驱动程序内的集合; 2
从外部数据集加载。
1 并行化驱动程序内的集合code demo
val d...
分类:
其他好文 时间:
2014-11-20 12:05:17
阅读次数:
296
1.关于run on hadoop的问题:
在未用hadoop eclipse插件前,我以为通过hadoop eclipse 插件不但可以管理hdfs,还可以自动打包程序,并帮我自动设置Configuration对象的mapred.jar属性值。但用了之后,才发现,这个插件只能管理hdfs,至于打包程序等操作,还得自己手动进行。我用的hadoop 版本为1.2.1,hadoop eclipse插...
分类:
其他好文 时间:
2014-11-20 12:04:27
阅读次数:
204
最近要在hadoop2.4上面上线hdfs raid,但是之前hdfs raid是作为svn 的branch开发的,领导希望通过patch的方式将hdfs raid功能打进trunk里面去,这里涉及到svn branch和trunk的合并问题,以下是hdfs raid 打patch的具体过程。...
分类:
其他好文 时间:
2014-11-20 11:58:52
阅读次数:
237
upgrade小结:1.dfsadmin-upgradeProgressstatus在cdh5.2.0中没有,在4.6.0有(见源码org.apache.hadoop.hdfs.tools.DFSAdmin)升级的时候不能通过这个看到升级状态rollingUpgrade这个参数在4.6.0中不存在,在5.2.0中有,可以用于滚动升级2.在cdh5.2.0中执行upgrade,nn中调用的..
分类:
其他好文 时间:
2014-11-20 01:40:36
阅读次数:
268
Hadoop读书笔记(三)Java API操作HDFS
多种方法诠释,注释清晰,史上最全咯!...
分类:
编程语言 时间:
2014-11-20 00:10:32
阅读次数:
245