mapreduce的处理过程分为2个阶段,map阶段,和reduce阶段。在要求统计指定文件中的所有单词的出现次数时,
map阶段把每个关键词写到一行上以逗号进行分隔,并初始化数量为1(相同的单词hadoop中的map会自动放到一行中)
reduce阶段是把每个单词出现的频率统计出来重新写回去。
如代码:
package com.clq.hadoop2;
import org.apa...
分类:
其他好文 时间:
2014-07-23 17:16:02
阅读次数:
199
代码测试环境:Hadoop2.4应用场景:当需要处理很多小数据文件的时候,可以应用此技巧来达到高效处理数据的目的。原理:应用CombineFileInputFormat,可以把多个小数据文件在进行分片的时候合并。由于每个分片会产生一个Mapper,当一个Mapper处理的数据比较小的时候,其效率较低。而一般使用Hadoop处理数据时,即默认方式,会把一个输入数据文件当做一个分片,这样当输入文件较小...
分类:
其他好文 时间:
2014-07-23 13:09:36
阅读次数:
281
今天需要编译一个项目的时候在装g++都装不上,[root@master hadoop]# yum install g++Loaded plugins: fastestmirror, refresh-packagekit, securityLoading mirror speeds from cach...
分类:
系统相关 时间:
2014-07-23 12:35:56
阅读次数:
303
Unable to load native-hadoop library for your platform解决安装maven1 cmake-2.8.12.1.tar.gzcd cmake-2.8.12.1 ./bootstrap make sudo make install2 安装ant expo...
分类:
其他好文 时间:
2014-07-23 12:22:36
阅读次数:
327
完成Hadoop的安装并跑起来之后,是该运行相关例子的时候了,而最简单最直接的例子就是HelloWorld式的WordCount例子
分类:
系统相关 时间:
2014-07-23 11:34:06
阅读次数:
488
王家林简介Spark亚太研究院院长和首席专家,中国目前唯一的移动互联网和云计算大数据集大成者。在Spark、Hadoop、Android等方面有丰富的源码、实务和性能优化经验。彻底研究了Spark从0.5.0到0.9.1共13个版本的Spark源码,并已完成2014年5月31日发布的Spark1.0...
分类:
移动开发 时间:
2014-07-22 23:29:47
阅读次数:
241
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载、安装、运行起来,最后还执行了一个Hello world程序,看到了结果。现在我们就来解读一下这个Hello Word。 OK,我们先来看一下当时在命令行里输入的内容: $mkdir input $cd i....
分类:
其他好文 时间:
2014-07-22 23:27:57
阅读次数:
401
我在写hadoop的时候,在mapper里定义了一个public static int rownums = 0.但我在main里对这个变量进行了赋值。结果在循环的过程中,根本没有任何输出,因为我是用这个变量来控制循环的,所以我猜想可能是不能改变这个值,于是我直接在初始定义的时候直接赋上正确的值,所以...
分类:
编程语言 时间:
2014-07-22 23:03:12
阅读次数:
253
我用的是cdh4.5版本:配置文件:$HBASE_HOME/conf/hbase-env.shexport JAVA_HOME=$JAVA_HOMEexport JAVA_HOME=/home/hadoop/jdk1.7.0_51export HBASE_CLASSPATH=$HBASE_HOME/...
分类:
其他好文 时间:
2014-07-22 22:35:55
阅读次数:
204