写这篇文章,是因为最近遇到了mapreduce的二次排序问题。以前的理解不完全正确。首先看一下mapreduce的过程 相信这张图熟悉MR的人都应该见过,再来一张图 wordcount也不细说了,hadoop里面的hello,world 之前我的理解是map过来的<k,v>会形成(k,<v1,v2, ...
分类:
其他好文 时间:
2016-11-18 17:56:29
阅读次数:
222
Spark的shuffle剖析!一、什么是shuffle?shuffle是洗牌的意思,总的来说,就是分散在各个节点的数据,在经过计算之后,需要重新将数据进行分配,以进行下一步的计算。比如wordcount,显示在3台节点上,分别计算了spark的数量、hadoop的数量、scala的数量,结果如下:节点1:(sp..
分类:
其他好文 时间:
2016-11-15 01:57:17
阅读次数:
203
/**** MD5 (Message-Digest Algorithm)* http://www.webtoolkit.info/***/ var MD5 = function (string) { function RotateLeft(lValue, iShiftBits) { return ( ...
分类:
编程语言 时间:
2016-11-03 13:33:20
阅读次数:
278
在安装完linux下的hadoop框架,实现完所现有的wordCount程序,能够完美输出结果之后,我们开始来搭建在window下的eclipse的环境,进行相关程序的编写。 在网上有很多未编译版本,需要手动进行相关编辑,所以特地找了一个已经编译完好的插件 eclipse版本:SR2-kepler ...
分类:
系统相关 时间:
2016-10-30 19:15:26
阅读次数:
294
本文仍然使用MapReduce的经典例子 WordCount来测试eclipse的开发环境。 与大部分教程不同的是,本文使用的hadoop是2.5.2的版本,相较于之前的0.X版本,hadoop 2.X有较大改动 在jar包方面,Hadoop 2.x 版本中 jar 不再集中在一个 hadoop-c ...
分类:
系统相关 时间:
2016-10-29 02:14:41
阅读次数:
262
按这里的教程: http://www.imooc.com/learn/391 试验时,发现在wordcount的最后一步一直提示如下错误: 猜测是包名导致的,但在cli中加上包名后还是不行,最后通过删除WordCount.java源码中的: 解决了问题。 初次接触Hadoop,根本原因还没找到。 ...
分类:
其他好文 时间:
2016-10-28 20:39:27
阅读次数:
359
目的: 学习Hadoop mapreduce 开发环境eclipse windows下的搭建 环境: Winows 7 64 eclipse,直接运行mapreduce 到服务器,结果输出到eclipse Hadoop2.6.4环境 准备: Hadoop2.6.4的源码包 相关: [0004] Ha ...
分类:
其他好文 时间:
2016-10-25 14:04:06
阅读次数:
233
目的: 初步感受一下hadoop mapreduce 环境: hadoop 2.6.4 1 准备输入文件 注意:输出目录/output 不用提前创建,程序会自动做这一步 2 执行 6/10/23 00:51:38 INFO mapreduce.Job: map 0% reduce 0%16/10/2 ...
分类:
其他好文 时间:
2016-10-23 17:49:58
阅读次数:
283
Mapper Reducer Runner 执行: hadoop jar wc.jar com.easytrack.hadoop.mr.WCRunner2 /wordcount.txt /wc/output4 ...
分类:
其他好文 时间:
2016-10-23 17:07:47
阅读次数:
178
一、Strom基本知识(回顾) 1,首先明确Storm各个组件的作用,包括Nimbus,Supervisor,Spout,Bolt,Task,Worker,Tuple nimbus是整个storm任务的管理者,并不实际进行工作。负责在集群中分发代码,对节点分配任务,并监视主机故障。 supervis ...
分类:
Web程序 时间:
2016-10-19 02:14:46
阅读次数:
356