码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
hadoop运行原理之shuffle
hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。首先看下这张图,就能了解shuffle所处的位置。图中的partitions、copy phase、sort phase所代表的就是shu.....
分类:其他好文   时间:2014-09-28 14:30:12    阅读次数:368
Hadoop日记Day14---MapReduce源代码回顾总结
一、回顾单词统计源码 1 package counter; 2 3 import java.net.URI; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FileSystem; 7 .....
分类:其他好文   时间:2014-09-28 11:00:52    阅读次数:249
python 高阶函数
传入函数要理解“函数本身也可以作为参数传入”,可以从Python内建的map/reduce函数入手。如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Processing on Large Clusters”,你就能大概明白map/reduce的概念。...
分类:编程语言   时间:2014-09-28 01:51:30    阅读次数:223
MapReduce 编程 系列五 MapReduce 主要过程梳理
前面4篇文章介绍了如何编写一个简单的日志提取程序,读取HDFS share/logs目录下的所有csv日志文件,然后提取数据后,最终输出到share/output目录下。本篇停留一下,梳理一下主要过程,然后提出新的改进目标。首先声明一下,所有的代码都是maven工程的,没有使用任何IDE。  这是我一贯的编程风格,用Emacs + JDEE开发。需要使用IDE的只需要学习如何在IDE中使用mave...
分类:其他好文   时间:2014-09-27 22:45:50    阅读次数:256
MapReduce 编程 系列四 MapReduce例子程序运行
MapReduce程序编译是可以在普通的Java环境下进行,现在来到真实的环境上运行。首先,将日志文件放到HDFS目录下$ hdfs dfs -put *.csv /user/chenshu/share/logs/ 14/09/27 17:03:22 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your...
分类:其他好文   时间:2014-09-27 21:04:00    阅读次数:233
Spark详解
Spark概述 当前,MapReduce编程模型已经成为主流的分布式编程模型,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷,如高延迟、不支持DAG模型、Map与Reduce的中间数据落地等。因此在近两年,社区出现了优化改进M...
分类:其他好文   时间:2014-09-27 18:23:00    阅读次数:573
大数据学习笔记
转自: http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine大数据处理是云计算中非常重要的领域,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐...
分类:其他好文   时间:2014-09-26 22:27:38    阅读次数:219
hive 基础执行语句
hive简单概念 hive是一种基于Hadoop的数据仓库的处理工具,目前只支持简单的类似传统关系型数据库的SQL查询,修改操作功能,他可以直接将SQL转化为MapReduce程序,开发人员不必一定要学会写MR程序,提高了开发效率...
分类:其他好文   时间:2014-09-26 19:40:28    阅读次数:232
通过简单的Word Count讲解MapReduce原理以及Java实现
MapReduce原理:       MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。     在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTrac...
分类:编程语言   时间:2014-09-26 19:07:08    阅读次数:187
从hadoop框架与MapReduce模式中谈海量数据处理
前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空闲...
分类:其他好文   时间:2014-09-26 05:21:18    阅读次数:285
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!