码迷,mamicode.com
首页 >  
搜索关键字:reduce    ( 2830个结果
Mapreduce运行过程分析(基于Hadoop2.4)——(三)
4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法開始和MapTask类似,包含initialize()初始化,依据情况看是否调用runJobCleanupT...
分类:其他好文   时间:2014-10-19 12:47:51    阅读次数:224
Map-Reduce的工作机制
Mapper“Map-Reduce”的思想就是“分而治之”Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”而执行“简单的任务”有几个意思:1、数据或计算规模相对于原任务要大大缩小;2、就近计算,即会被分配到存放了所需数据的节点进行计算。3、这些小任务可以并行计算,彼此间没有相互依赖的...
分类:其他好文   时间:2014-10-18 19:35:27    阅读次数:210
对于HBase的MapReduce性能提升方案之BulkLoad
我们知道,在第一次海量数据批量入库时,我们会选择使用BulkLoad的方式。 简介一下BulkLoad原理方式:(1)通过MapReduce的方式,在Map或者Reduce端将输出格式化为HBase的底层存储文件HFile。(2)调用BulkLoad将第一个Job生成的HFile导入到对应的HBase表中。 ps:请注意(1)HFile方式是所有的加载方案里面是最快的,前提是:数据必须第一个导...
分类:其他好文   时间:2014-10-16 20:16:53    阅读次数:283
Spark Streaming 结合FlumeNG使用实例
SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似map、reduce、join、window等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。Spark S...
分类:Web程序   时间:2014-10-13 22:30:37    阅读次数:500
《深入浅出pig系列之一》pig-0.12.0-cdh5.1.2的安装与运行
这里使用的版本是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里 1.Pig简介:      Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:S...
分类:其他好文   时间:2014-10-13 21:20:27    阅读次数:253
(转)MapReduce二次排序
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce...
分类:编程语言   时间:2014-10-13 12:30:29    阅读次数:350
Hadoop与分布式开发
hadoop上的并行应用程序开发是基于MapReduce编程框架的,MapReduce编程模型的原理是:利用一个输入的key/value对集合来产生一个输出的key/value对集合。MapReduce库的用户用两个函数来表达这个计算:Map和Reduce。     用户自定义的map函数接收一个输入的key/value对,然后产生一个中间key/value对的集合。MapReduce把所有...
分类:其他好文   时间:2014-10-12 21:51:28    阅读次数:165
UVa 12587 Reduce the Maintenance Cost(Tarjan + 二分 + DFS)
题意:n个城市(n 思路:首先边的费用可以通过Tarjan求桥之后求得(利用桥的性质),然后就是二分答案了!对于每个点,如果有个儿子不能维护,那么不可行,否则,试着让儿子去维护边权,如果不可行,只能让父亲承担。 #include #include #include #include #include #include #include #include #include u...
分类:其他好文   时间:2014-10-12 14:17:38    阅读次数:115
hive使用python脚本导致java.io.IOException: Broken pipe异常退出
反垃圾rd那边有一个hql,在执行过程中出现错误退出,报java.io.IOException: Broken pipe异常,hql中使用到了python脚本,hql和python脚本近期没有人改过,在10.1号时还运行正常,但是在10.4号之后运行就老是出现相同的错误,而且错误出现在stage-2的reduce阶段,gateway上面的错误提示如下:...
分类:编程语言   时间:2014-10-10 17:46:44    阅读次数:520
Spark RDD API详解(一) Map和Reduce
本文用实例介绍Spark中RDD和MapReduce相关的API。...
分类:Windows程序   时间:2014-10-09 02:10:47    阅读次数:367
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!