搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

Hadoop MapReduce Next Generation - Setting up a Single Node Cluster

Hadoop MapReduce Next Generation - Setting up a Single Node Cluster.PurposeThis document describes how to set up and configure a single-node Hadoop in...

分类：其他好文时间：2014-07-30 23:41:45 阅读次数：284

Hadoop学习笔记（一）——Hadoop体系结构

HDFS和MapReduce是Hadoop的两大核心。整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的，并且通过MapReduce来实现分布式并行任务处理的程序支持。...

分类：其他好文时间：2014-07-30 20:57:44 阅读次数：238

mapreduce任务失败、重试、推测式执行机制小结

mapreduce中我们自定义的mapper和reducer程序在执行后有可能遇上出错退出的情况，mapreduce中jobtracker会全程追踪任务的执行情况，对于出错的任务mapreduce也定义了一套自己的处理方式。...

分类：其他好文时间：2014-07-30 12:21:22 阅读次数：209

Hadoop学习笔记(6) ——重新认识Hadoop

Hadoop学习笔记(6) ——重新认识Hadoop 之前，我们把hadoop从下载包部署到编写了helloworld，看到了结果。现是得开始稍微更深入地了解hadoop了。 Hadoop包含了两大功能DFS和MapReduce， DFS可以理解为一个分布式文件系统，存储而已，所以这里暂时就不深入....

分类：其他好文时间：2014-07-30 09:44:03 阅读次数：344

MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里...

分类：其他好文时间：2014-07-29 21:56:42 阅读次数：327

论文摘抄 - FlumeJava

核心抽象和基本原语 PCollection是一个不可变的bag，可以是有序的(Sequence)，也可以是无序的(Collection)。PCollection可以来自于内存里的Java PCollection对象，也可以读取自文件。 PTable，可以看成PCollection<Pair>，不可变无序multi-map。第一个原语是parallelDo()，把PCollection变成新的PCollection，处理方式定义在DoFn里。e...

分类：编程语言时间：2014-07-29 18:08:02 阅读次数：294

论文摘抄 - Tenzing

背景异构数据的适配及数据可扩展性，资源可扩展性，廉价机器，SQL查询。架构概述 Worker pool，query server，clientinterfaces，metadata server Worker线程是long-running的，worker pool包括master节点和worker节点，以及一个master watcher。 Query server把query解析，优化之后传给master执行，优化包括一些基本的规则优化和基于成本的优化。...

分类：其他好文时间：2014-07-29 18:07:02 阅读次数：250

Window7中Eclipse运行MapReduce程序报错的问题

按照文档：http://www.micmiu.com/bigdata/hadoop/hadoop2x-eclipse-mapreduce-demo/安装配置好Eclipse后，运行WordCount程序报错： log4j:WARN No appenders could be found for lo...

分类：Windows程序时间：2014-07-29 16:39:32 阅读次数：482

关于Hadoop-Streaming中碰到的问题

Hadoop在分布式计算方面很强大，而Python在文本处理也是相当方便，那么有这两者的结合吗？有，答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来，使用方便，效果很好。个人觉得Pig在处理数据集时很不方便，特别是在计算百分比等运算时，而Hadoop-Streaming是可以替代Pig的。 1.Streaming固定的代码，该代码可以...

分类：其他好文时间：2014-07-29 14:39:08 阅读次数：340

MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解 MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapRed...

分类：其他好文时间：2014-07-29 13:38:48 阅读次数：219

共4057条上一页 1 ... 383 384 385 386 387 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)