hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。
弹性分布式数据集(RDD)获得方式:1
并行化驱动程序内的集合; 2
从外部数据集加载。
1 并行化驱动程序内的集合code demo
val d...
分类:
其他好文 时间:
2014-11-20 12:05:17
阅读次数:
296
package com.my.mapreduce.wordcount;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org....
分类:
其他好文 时间:
2014-11-19 21:44:52
阅读次数:
123
hadoop是一个分布式的基础架构,利用分布式实现高效的计算与储存,最核心的设计在于HDFS与MapReduce,HDFS提供了大量数据的存储,mapReduce提供了大量数据计算的实现,通过Java项目实现hadoop job处理海量数据解决复杂的需求。
一、基本环境及相关软件的配置
详细配置说明:基本环境配置及权限申请
二、hadoop项目开发流程
hadoop主要的...
分类:
其他好文 时间:
2014-11-19 18:49:25
阅读次数:
175
说明:参考Mahout FP算法相关相关源码。算法工程可以在下载:(只是单机版的实现,并没有MapReduce的代码)使用FP关联规则算法计算置信度基于下面的思路:1. 首先使用原始的FP树关联规则挖掘出所有的频繁项集及其支持度;这里需要注意,这里是输出所有的频繁项集,并没有把频繁项集合并,所以需要修改FP树的相关代码,在某些步骤把所有的频繁项集输出;(ps:参考Mahout的FP树单机版的实现,...
分类:
编程语言 时间:
2014-11-19 15:58:12
阅读次数:
262
花了大约1周的时间,终于把MapReduce的5大阶段的源码学习结束掉了,收获不少,就算本人对Hadoop学习的一个里程碑式的纪念吧。今天花了一点点的时间,把MapReduce的最后一个阶段,输出OutputFormat给做了分析,这个过程跟InputFormat刚刚好是对着干的,二者极具对称性。为什么这么说呢,待我一一分析。
OutputFormat过程的作用就是定义数...
分类:
其他好文 时间:
2014-11-19 12:44:39
阅读次数:
179
Ubuntu下使用Eclipse和hadoop进行MapReduce程序的开发...
分类:
系统相关 时间:
2014-11-19 11:09:33
阅读次数:
197
Yarn的JVM重用功能——uberhttp://blog.csdn.net/samhacker/article/details/15692003Hadoop:TheDefinitiveGuid总结Chapter6MapReduce的工作原理http://www.cnblogs.com/biyeymyhjob/archive/2012/08/11/2631750.html浅谈hadoop中mapreduce的文件分发http://blog.csdn.net/zgc..
分类:
其他好文 时间:
2014-11-19 02:09:20
阅读次数:
179
Ubuntu下使用Eclipse和hadoop进行MapReduce程序的开发...
分类:
系统相关 时间:
2014-11-19 00:57:19
阅读次数:
195
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算一切都是从最上方的user program开始的,user program链接了MapReduce库,实现了最基本的Map函数和Reduce函数。图中执行的顺序都用数字标记了。1.MapReduce库先把user progra...
分类:
其他好文 时间:
2014-11-19 00:26:00
阅读次数:
167
MapReduce五大过程已经分析过半了,上次分析完Map的过程,着实花费了我的很多时间,不过收获很大,值得了额,这次用同样的方法分析完了Reduce的过程,也算是彻底摸透了MapReduce思想的2个最最重要的思想了吧。好,废话不多,切入正题,在学习Reduce过程分析的之前,我特意查了书籍上或网络上相关的资料,我发现很大都是大同小异,缺乏对于源码的参照分析,所以我个人认为,我了可以在某些细节上...
分类:
其他好文 时间:
2014-11-18 13:35:10
阅读次数:
172