介绍怎样搭建用eclipse开发调试Hadoop的环境...
分类:
系统相关 时间:
2014-12-03 00:29:55
阅读次数:
288
Disco是一个轻量级的、开源的基于mapreduce模型计算的框架,Disco强大且易于使用,这都要归功于python,Disco分发且复制数据,可高效安排作业。Disco甚至拥有能对数以亿计的数据点进行索引以及实时查询的工具。Disco于2008年在Nokia研究中心诞生,解决了在大量数据处理方面的挑战。Disco支持大数据集的并行计算,在不可靠的计算机集群中,Disco是一个完美的分析和处理...
分类:
其他好文 时间:
2014-12-02 22:32:39
阅读次数:
206
环境:centos6.5 、cdh5.1.3一、hadoop命令找不到hbase相关类(一)观察hadoop classpath的输出:1,classpath包含了/etc/hadoop/conf,这是hadoop当前使用的配置文件的目录。2,classpath以*结尾, (二),找到hbase相....
分类:
其他好文 时间:
2014-12-02 17:10:34
阅读次数:
274
——转自:{http://langyu.iteye.com/blog/992916} Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混....
分类:
其他好文 时间:
2014-12-01 23:52:31
阅读次数:
246
import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache...
分类:
其他好文 时间:
2014-12-01 23:52:06
阅读次数:
224
Hadoop读书笔记(十)MapReduce中的combiner编程。
从计数器分析combiner的作用......
分类:
其他好文 时间:
2014-12-01 22:29:22
阅读次数:
154
实例讲解Hadoop中MapReduce中的partition分组...
分类:
其他好文 时间:
2014-12-01 22:27:01
阅读次数:
453
package com.my.hadoop.mapreduce.dataformat;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf...
分类:
其他好文 时间:
2014-12-01 22:19:24
阅读次数:
166
一、先理解MapReduce作业组成
一个完整的MapReduce作业称作job,它包括三部分:
输入数据MapReduce程序配置信息
Hadoop工作时会将job分成若干个task:map任务和reduce任务
有两类节点控制作业执行的过程:JobTracker和TaskTracker
JobTra...
分类:
其他好文 时间:
2014-12-01 20:55:53
阅读次数:
280
需求 计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。 比如,输入一个文件,其内容如下: hello world hello hadoop hello mapreduce 对应上面给出的输入样例,其输出样例为: hado...
分类:
其他好文 时间:
2014-12-01 20:49:12
阅读次数:
129