Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果。现是得开始稍微更深入地了解hadoop了。 Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入....
分类:
其他好文 时间:
2014-07-30 09:44:03
阅读次数:
344
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...
分类:
其他好文 时间:
2014-07-29 21:56:42
阅读次数:
327
核心抽象和基本原语
PCollection是一个不可变的bag,可以是有序的(Sequence),也可以是无序的(Collection)。PCollection可以来自于内存里的Java PCollection对象,也可以读取自文件。
PTable,可以看成PCollection<Pair>,不可变无序multi-map。
第一个原语是parallelDo(),把PCollection变成新的PCollection,处理方式定义在DoFn里。e...
分类:
编程语言 时间:
2014-07-29 18:08:02
阅读次数:
294
背景
异构数据的适配及数据可扩展性,资源可扩展性,廉价机器,SQL查询。
架构概述
Worker pool,query server,clientinterfaces,metadata server
Worker线程是long-running的,worker pool包括master节点和worker节点,以及一个master watcher。
Query server把query解析,优化之后传给master执行,优化包括一些基本的规则优化和基于成本的优化。...
分类:
其他好文 时间:
2014-07-29 18:07:02
阅读次数:
250
按照文档:http://www.micmiu.com/bigdata/hadoop/hadoop2x-eclipse-mapreduce-demo/安装配置好Eclipse后,运行WordCount程序报错: log4j:WARN No appenders could be found for lo...
Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。
1.Streaming固定的代码,该代码可以...
分类:
其他好文 时间:
2014-07-29 14:39:08
阅读次数:
340
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解 MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRed...
分类:
其他好文 时间:
2014-07-29 13:38:48
阅读次数:
219
因为业务需要,需要将一批mysql数据导入到HBASE,现在先将数据从Mysql导出到HDFS。版本:hadoop CDH4.5,Hbase-0.946 1、实体类 YqBean 是我的实体类,请根据自己需要修改,实体类需要 implements Writable, DBWritable。 ...
分类:
数据库 时间:
2014-07-29 11:50:56
阅读次数:
292
1. Motivation2. MapReduceMapReduce是一种数据密集型并行计算框架。待处理数据以“块”为单位存储在集群机器文件系统中(HDFS),并以(key, value)的键值对形式保存。当任务启动时,系统将计算任务分配给存储数据的相应机器。MapReduce计算任务可以划分为两个...
分类:
其他好文 时间:
2014-07-28 15:16:13
阅读次数:
202
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了。但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce。没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写。....
分类:
其他好文 时间:
2014-07-27 22:24:49
阅读次数:
280