码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
Hadoop MapReduce Next Generation - Setting up a Single Node Cluster
Hadoop MapReduce Next Generation - Setting up a Single Node Cluster.PurposeThis document describes how to set up and configure a single-node Hadoop in...
分类:其他好文   时间:2014-07-30 23:41:45    阅读次数:284
Hadoop学习笔记(一)——Hadoop体系结构
HDFS和MapReduce是Hadoop的两大核心。整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的,并且通过MapReduce来实现分布式并行任务处理的程序支持。...
分类:其他好文   时间:2014-07-30 20:57:44    阅读次数:238
mapreduce任务失败、重试、推测式执行机制小结
mapreduce中我们自定义的mapper和reducer程序在执行后有可能遇上出错退出的情况,mapreduce中jobtracker会全程追踪任务的执行情况,对于出错的任务mapreduce也定义了一套自己的处理方式。...
分类:其他好文   时间:2014-07-30 12:21:22    阅读次数:209
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果。现是得开始稍微更深入地了解hadoop了。 Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入....
分类:其他好文   时间:2014-07-30 09:44:03    阅读次数:344
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...
分类:其他好文   时间:2014-07-29 21:56:42    阅读次数:327
论文摘抄 - FlumeJava
核心抽象和基本原语 PCollection是一个不可变的bag,可以是有序的(Sequence),也可以是无序的(Collection)。PCollection可以来自于内存里的Java PCollection对象,也可以读取自文件。 PTable,可以看成PCollection<Pair>,不可变无序multi-map。 第一个原语是parallelDo(),把PCollection变成新的PCollection,处理方式定义在DoFn里。e...
分类:编程语言   时间:2014-07-29 18:08:02    阅读次数:294
论文摘抄 - Tenzing
背景 异构数据的适配及数据可扩展性,资源可扩展性,廉价机器,SQL查询。 架构概述 Worker pool,query server,clientinterfaces,metadata server Worker线程是long-running的,worker pool包括master节点和worker节点,以及一个master watcher。 Query server把query解析,优化之后传给master执行,优化包括一些基本的规则优化和基于成本的优化。...
分类:其他好文   时间:2014-07-29 18:07:02    阅读次数:250
Window7中Eclipse运行MapReduce程序报错的问题
按照文档:http://www.micmiu.com/bigdata/hadoop/hadoop2x-eclipse-mapreduce-demo/安装配置好Eclipse后,运行WordCount程序报错: log4j:WARN No appenders could be found for lo...
分类:Windows程序   时间:2014-07-29 16:39:32    阅读次数:482
关于Hadoop-Streaming中碰到的问题
Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。 1.Streaming固定的代码,该代码可以...
分类:其他好文   时间:2014-07-29 14:39:08    阅读次数:340
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解 MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRed...
分类:其他好文   时间:2014-07-29 13:38:48    阅读次数:219
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!