码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
python 高阶函数
传入函数要理解“函数本身也可以作为参数传入”,可以从Python内建的map/reduce函数入手。如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Processing on Large Clusters”,你就能大概明白map/reduce的概念。...
分类:编程语言   时间:2014-09-28 01:51:30    阅读次数:223
MapReduce 编程 系列五 MapReduce 主要过程梳理
前面4篇文章介绍了如何编写一个简单的日志提取程序,读取HDFS share/logs目录下的所有csv日志文件,然后提取数据后,最终输出到share/output目录下。本篇停留一下,梳理一下主要过程,然后提出新的改进目标。首先声明一下,所有的代码都是maven工程的,没有使用任何IDE。  这是我一贯的编程风格,用Emacs + JDEE开发。需要使用IDE的只需要学习如何在IDE中使用mave...
分类:其他好文   时间:2014-09-27 22:45:50    阅读次数:256
MapReduce 编程 系列四 MapReduce例子程序运行
MapReduce程序编译是可以在普通的Java环境下进行,现在来到真实的环境上运行。首先,将日志文件放到HDFS目录下$ hdfs dfs -put *.csv /user/chenshu/share/logs/ 14/09/27 17:03:22 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your...
分类:其他好文   时间:2014-09-27 21:04:00    阅读次数:233
Spark详解
Spark概述 当前,MapReduce编程模型已经成为主流的分布式编程模型,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷,如高延迟、不支持DAG模型、Map与Reduce的中间数据落地等。因此在近两年,社区出现了优化改进M...
分类:其他好文   时间:2014-09-27 18:23:00    阅读次数:573
大数据学习笔记
转自: http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine大数据处理是云计算中非常重要的领域,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐...
分类:其他好文   时间:2014-09-26 22:27:38    阅读次数:219
hive 基础执行语句
hive简单概念 hive是一种基于Hadoop的数据仓库的处理工具,目前只支持简单的类似传统关系型数据库的SQL查询,修改操作功能,他可以直接将SQL转化为MapReduce程序,开发人员不必一定要学会写MR程序,提高了开发效率...
分类:其他好文   时间:2014-09-26 19:40:28    阅读次数:232
通过简单的Word Count讲解MapReduce原理以及Java实现
MapReduce原理:       MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。     在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTrac...
分类:编程语言   时间:2014-09-26 19:07:08    阅读次数:187
从hadoop框架与MapReduce模式中谈海量数据处理
前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空闲...
分类:其他好文   时间:2014-09-26 05:21:18    阅读次数:285
MapReduce 2.x 编程 系列二 Map阶段实现
现在想从日志中提取数据,日志文件如下:2014-05-10 13:36:40,140307000287,536dbacc4700aab274729cca,login 2014-05-10 13:37:46,140310000378,536dbae74700aab274729ccb,login 2014-05-10 13:39:20,140310000382,536dbb284700aab27472...
分类:其他好文   时间:2014-09-26 02:38:28    阅读次数:340
MapReduce 1.x 编程 系列三 Reduce阶段实现
Reduce代码就是做加和统计,package org.freebird.reducer; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Reducer.Context; import org.apache.hadoop.mapredu...
分类:其他好文   时间:2014-09-26 02:02:58    阅读次数:146
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!