本文介绍在centos7上面通过hadoop2.4.1源码构建hadoop distribution 版本,即hadoop的运行版本。 为何要自己building,而不用Apache的distribution 【bin】版本,因为hadoop涉及到Linux系统的底层实现,如: hado...
分类:
其他好文 时间:
2014-07-30 23:41:25
阅读次数:
284
代码测试环境:Hadoop2.4应用场景:在Reducer端一般是key排序,而没有value排序,如果想对value进行排序,则可以使用此技巧。应用实例描述:比如针对下面的数据:a,5
b,7
c,2
c,9
a,3
a,1
b,10
b,3
c,1如果使用一般的MR的话,其输出可能是这样的:a 1
a 3
a 5
b 3
b 10
b 7
c 1
c 9
c 2从数据中可以看到其键是排序的,但...
分类:
其他好文 时间:
2014-07-30 17:29:34
阅读次数:
358
代码测试环境:Hadoop2.4应用场景:当需要定制输出数据格式时可以采用此技巧,包括定制输出数据的展现形式,输出路径,输出文件名称等。Hadoop内置的输出文件格式有:1)FileOutputFormat 常用的父类;2)TextOutputFormat 默认输出字符串输出格式;3)SequenceFileOutputFormat 序列化文件输出;4)MultipleOutputs 可以把输出...
分类:
其他好文 时间:
2014-07-24 17:47:36
阅读次数:
298
mapreduce的处理过程分为2个阶段,map阶段,和reduce阶段。在要求统计指定文件中的所有单词的出现次数时,
map阶段把每个关键词写到一行上以逗号进行分隔,并初始化数量为1(相同的单词hadoop中的map会自动放到一行中)
reduce阶段是把每个单词出现的频率统计出来重新写回去。
如代码:
package com.clq.hadoop2;
import org.apa...
分类:
其他好文 时间:
2014-07-23 17:16:02
阅读次数:
199
Exception in thread "main" java.lang.UnsupportedClassVersionError: com/clq/hadoop2/MapperReducer : Unsupported major.minor version 51.0
at java.lang.ClassLoader.defineClass1(Native Method)
...
分类:
其他好文 时间:
2014-07-23 17:09:51
阅读次数:
192
代码测试环境:Hadoop2.4应用场景:当需要处理很多小数据文件的时候,可以应用此技巧来达到高效处理数据的目的。原理:应用CombineFileInputFormat,可以把多个小数据文件在进行分片的时候合并。由于每个分片会产生一个Mapper,当一个Mapper处理的数据比较小的时候,其效率较低。而一般使用Hadoop处理数据时,即默认方式,会把一个输入数据文件当做一个分片,这样当输入文件较小...
分类:
其他好文 时间:
2014-07-23 13:09:36
阅读次数:
281
Hadoop代码测试环境:Hadoop2.4应用:在对数据需要进行一定条件的过滤和简单处理的时候可以使用自定义输入文件格式类。Hadoop内置的输入文件格式类有:1)FileInputFormat这个是基本的父类,我们自定义就直接使用它作为父类;2)TextInputFormat这个是默认的数据格式类,我们一般编程,如果没有特别指定的话,一般都使用的是这个;key代表当前行数据距离文件开始的距离,...
分类:
其他好文 时间:
2014-07-22 22:39:54
阅读次数:
270
1、概述Hadoop2.X中的HDFS(Vsersion2.0)相比于Hadoop1.X增加了两个重要功能,HA和Federation。HA解决了Hadoop1.XNamenode中一直存在的单点故障问题,HA策略通过热备的方式为主NameNode提供一个备用者,并且这个备用者的状态一直和主Namenode的元数据保持一致,一旦主NameNode挂..
分类:
其他好文 时间:
2014-07-22 14:55:35
阅读次数:
365
0. java学习必看,你的大方向http://java.itcast.cn/subject/hadoop2/index.shtml?140701lcqqq1
1、JDK6中文API:http://tool.oschina.net/apidocs/apidoc?api=jdk-zh
2、Netty4.x用户向导:http://netty.io/wiki/user-guide-for-4.x....
分类:
编程语言 时间:
2014-07-21 13:35:49
阅读次数:
234