搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

hadoop运行原理之shuffle

hadoop的核心思想是MapReduce，但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。首先看下这张图，就能了解shuffle所处的位置。图中的partitions、copy phase、sort phase所代表的就是shu.....

分类：其他好文时间：2014-09-28 14:30:12 阅读次数：368

Hadoop日记Day14---MapReduce源代码回顾总结

一、回顾单词统计源码 1 package counter; 2 3 import java.net.URI; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FileSystem; 7 .....

分类：其他好文时间：2014-09-28 11:00:52 阅读次数：249

python 高阶函数

传入函数要理解“函数本身也可以作为参数传入”，可以从Python内建的map/reduce函数入手。如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Processing on Large Clusters”，你就能大概明白map/reduce的概念。...

分类：编程语言时间：2014-09-28 01:51:30 阅读次数：223

MapReduce 编程系列五 MapReduce 主要过程梳理

前面4篇文章介绍了如何编写一个简单的日志提取程序，读取HDFS share/logs目录下的所有csv日志文件，然后提取数据后，最终输出到share/output目录下。本篇停留一下，梳理一下主要过程，然后提出新的改进目标。首先声明一下，所有的代码都是maven工程的，没有使用任何IDE。这是我一贯的编程风格，用Emacs + JDEE开发。需要使用IDE的只需要学习如何在IDE中使用mave...

分类：其他好文时间：2014-09-27 22:45:50 阅读次数：256

MapReduce 编程系列四 MapReduce例子程序运行

MapReduce程序编译是可以在普通的Java环境下进行，现在来到真实的环境上运行。首先，将日志文件放到HDFS目录下$ hdfs dfs -put *.csv /user/chenshu/share/logs/ 14/09/27 17:03:22 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your...

分类：其他好文时间：2014-09-27 21:04:00 阅读次数：233

Spark详解

Spark概述当前，MapReduce编程模型已经成为主流的分布式编程模型，它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷，如高延迟、不支持DAG模型、Map与Reduce的中间数据落地等。因此在近两年，社区出现了优化改进M...

分类：其他好文时间：2014-09-27 18:23:00 阅读次数：573

大数据学习笔记

转自： http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine大数据处理是云计算中非常重要的领域，自Google公司提出MapReduce分布式处理框架以来，以Hadoop为代表的开源软件受到越来越多公司的重视和青睐...

分类：其他好文时间：2014-09-26 22:27:38 阅读次数：219

hive 基础执行语句

hive简单概念 hive是一种基于Hadoop的数据仓库的处理工具，目前只支持简单的类似传统关系型数据库的SQL查询，修改操作功能，他可以直接将SQL转化为MapReduce程序，开发人员不必一定要学会写MR程序，提高了开发效率...

分类：其他好文时间：2014-09-26 19:40:28 阅读次数：232

通过简单的Word Count讲解MapReduce原理以及Java实现

MapReduce原理： MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker；另一个是TaskTrac...

分类：编程语言时间：2014-09-26 19:07:08 阅读次数：187

从hadoop框架与MapReduce模式中谈海量数据处理

前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空闲...

分类：其他好文时间：2014-09-26 05:21:18 阅读次数：285

共4057条上一页 1 ... 369 370 371 372 373 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)