Map-reduce是一个考虑大型数据得到有用聚集结果的数据处理程式(paradigm).针对map-reduce操作,MongoDB提供来mapreduce命令....
分类:
数据库 时间:
2014-07-25 11:09:11
阅读次数:
275
InputFormat这个类是用来处理Map的输入数据的,任务开始时,InputFormat先将HDFS里所有输入文件里的数据分割成逻辑上的InputSpilt对象
这里的split是HDFS中block的部分或者一整块或几个快中的数据的逻辑分割,一个split对应于一个Map,所以Map的数量是由split的数量决定的。
那么怎样去确定InputSpilt的个数呢,下面列出于split个...
分类:
其他好文 时间:
2014-07-25 11:03:11
阅读次数:
204
Hadoop MapReduce思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数...
分类:
其他好文 时间:
2014-07-24 17:00:47
阅读次数:
263
《大 数据技术丛书:Hadoop应用开发技术详解》共12章。第1~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是 MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O;第6章分析了 MapReduce的工...
分类:
其他好文 时间:
2014-07-24 11:25:42
阅读次数:
337
mapreduce的处理过程分为2个阶段,map阶段,和reduce阶段。在要求统计指定文件中的所有单词的出现次数时,
map阶段把每个关键词写到一行上以逗号进行分隔,并初始化数量为1(相同的单词hadoop中的map会自动放到一行中)
reduce阶段是把每个单词出现的频率统计出来重新写回去。
如代码:
package com.clq.hadoop2;
import org.apa...
分类:
其他好文 时间:
2014-07-23 17:16:02
阅读次数:
199
package cn.lmj.mapreduce;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritabl...
分类:
其他好文 时间:
2014-07-22 22:40:15
阅读次数:
170
进到8088页面后,怎么看不到mapreudce的执行状态,有哪里需要配置的解决办法:在$HADOOP_HOME/conf/mapred-site.xml 在原来的配置文件基础之上添加: mapreduce.framework.name yarn mapre...
分类:
其他好文 时间:
2014-07-22 22:36:15
阅读次数:
211
1、概述Hadoop2.X中的HDFS(Vsersion2.0)相比于Hadoop1.X增加了两个重要功能,HA和Federation。HA解决了Hadoop1.XNamenode中一直存在的单点故障问题,HA策略通过热备的方式为主NameNode提供一个备用者,并且这个备用者的状态一直和主Namenode的元数据保持一致,一旦主NameNode挂..
分类:
其他好文 时间:
2014-07-22 14:55:35
阅读次数:
365
虽然我们在虚拟机客户端上能很快通过shell命令,进行执行一些已经封装好实例程序,但是在应用中还是是自己写程序,然后部署到服务器中去,下面,我通过程序进行浅谈一个程序的部署过程。
在启动Hadoop之后,然后把程序达成可执行的jar包,并把相应的第三方jar包 包含进去。执行hadoop jar XXX. +驱动名称。package com.mapred;
import java.i...
分类:
其他好文 时间:
2014-07-21 22:33:08
阅读次数:
239