码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
Hadoop学习笔记—8.Combiner与自定义Combiner
一、Combiner的出现背景1.1 回顾Map阶段五大步凑 在第四篇博文《初始MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.5是一个可选步凑,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文.....
分类:其他好文   时间:2015-02-23 01:24:05    阅读次数:854
Hadoop学习笔记—9.Partitioner与自定义Partitioner
一、初步探索Partitioner1.1 再次回顾Map阶段五大步凑 在第四篇博文《初始MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对,是需要送到.....
分类:其他好文   时间:2015-02-23 01:23:12    阅读次数:242
那么NN、DN、JT、TT的问题来了。。。。
首先,今天是羊年初一。祝看到这篇博文的朋友们新春快乐!身体健康!心想事成!万事胜意! 言归正传。hadoop中的两大核心分别是HDFS以及MapReduce。HDFS分布式文件系统有NameNode、DataNode以及SecondaryNameNode三种节点进程,同时MR有JobTrack...
分类:其他好文   时间:2015-02-19 17:28:09    阅读次数:256
MapReduce的C#实现及单元测试(试验)
希望大家一起分享交流
分类:Windows程序   时间:2015-02-17 10:17:57    阅读次数:434
海量数据挖掘——第1讲.MapReduce and PageRank
本栏目(数据挖掘)下海量数据挖掘专题是个人对Coursera公开课海量数据挖掘(2015)的学习心得与笔记。所有内容均来自Coursera公开课Mining Massive Datasets中Jure Leskovec, Anand Rajaraman以及Jeff Ullman老师的讲解。(https://class.coursera.org/mmds-002/lecture) 第1讲---...
分类:其他好文   时间:2015-02-16 06:50:14    阅读次数:373
学习的一个MapReduce程序(《beginner`s guide》中的例子)
第一个MR程序是实现关系型数据库中经常都会遇到的表连接操作,也就是join。这里是连接sales和accounts表,通过共同的ID列进行连接。同时统计出总的购买件数以及总的消费额。下面是两个示例数据,一个是sales.txt,另一个是accounts.txt。首先是sales.txt:001 .....
分类:其他好文   时间:2015-02-15 23:07:36    阅读次数:222
Avro基础
一、Avro的基本功能 1、定义了数据模式文件的语法,一般使用json文件。以及一些数据基本类型与复杂类型。 2、定义了数据序列化到文件后的数据格式,此格式可供各种语言进行读取。 3、为部分语言定义了序列化文件的读取API,如JAVA等。 4、扩展了hadoop的基本mapreduce,提供了用于使用Avro作为输出框架的mapreduce API。 二、Gora中的avro ...
分类:其他好文   时间:2015-02-14 20:05:04    阅读次数:151
读《Hadoop 权威指南》
部分目录: 1,初始Hadoop 2,关于MapReduce 3,Hadoop分布式文件系统 HDFS 文件系统。 4,Hadoop I/O 5,MapReduce应用开发 6,MapReduce的工作机制 7,MapReduce的类型与格式 8,MapReduce 的特性 9,构建 Hadoop 集群 10,管理 Hadoop 11,Pig简介 Pig Latin 描述...
分类:其他好文   时间:2015-02-13 20:01:07    阅读次数:183
Hadoop,MapReduce操作Mysql
前以前帖子介绍,怎样读取文本数据源和多个数据源的合并:http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html 这一个博客介绍一下MapReduce怎样读取关系数据库的数据,选择的关系数据库为MySql,因为它是开源的软件,所以大...
分类:数据库   时间:2015-02-13 16:23:37    阅读次数:222
MapReduce,DataJoin,链接多数据源
主要介绍用DataJoin类来链接多数据源,先看一下例子,假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653 ...
分类:其他好文   时间:2015-02-13 16:21:54    阅读次数:182
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!