码迷,mamicode.com
首页 >  
搜索关键字:reducer    ( 450个结果
Mapreduce shuffle和排序
Mapreduce为了确保每个reducer的输入都按键排序。系统执行排序的过程-----将map的输出作为输入传给reducer 称为shuffle。学习shuffle是如何工作的有助于我们理解mapreduce工作机制。shuffle属于hadoop不断被优化和改进的代码库的一部分。从许多方面看...
分类:编程语言   时间:2015-11-18 09:15:50    阅读次数:255
hive transform函数介绍
hive 提供了通过脚本定制 mapper 和 reducer 的功能,这一功能需要用到 transform 函数。默认情况下, transform 函数中带入的参数会被用 '\t 分隔开,并且以字符串对方式传入到用户脚本中。输入中 NULL 值会被转换成字符串 '\N'。脚本的输出使用的分隔符也是...
分类:其他好文   时间:2015-11-05 11:58:55    阅读次数:346
hadoop reducer不执行
写了一个MR程序。发现reducer居然没执行。然后查看了半天,没发现有什么问题,后来经博士指点,找到了原因。1.首先,检查reducer,即job.setReducerClass(**.class);2.reducer函数里public void reduce(Text key, Iterable...
分类:其他好文   时间:2015-10-26 20:19:44    阅读次数:494
hadoop2.7之Mapper/reducer源码分析
一切从示例程序开始:示例程序Hadoop2.7 提供的示例程序WordCount.javapackage org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org...
分类:移动开发   时间:2015-10-20 12:05:31    阅读次数:434
在AWS EMR上运行Map Reduce的Java示例程序 及 操作小计
下面的代码中AffairClient类中包含了三个内之类,分别对应于Hadoop Mapreduce程序运行所需的Mapper类,Reducer类,和主类。AffairClient类中其余方法用于配置和运行EMR程序。可以修改相关参数来对程序做适当调整。比如:修改map和reduce函数,添加com...
分类:编程语言   时间:2015-10-16 11:41:20    阅读次数:392
hadoop编码问题,mapreduce中Tex与string的转化 乱码问题
引用:http://blog.csdn.net/zklth/article/details/11829563Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码。此时只需在mapper或reducer...
分类:其他好文   时间:2015-09-29 20:19:58    阅读次数:170
hive中order by,sort by, distribute by, cluster by作用以及用法
1.orderbyHive中的orderby跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这 将会消..
分类:其他好文   时间:2015-09-23 10:37:46    阅读次数:202
shuffle过程中的信息传递
Spark中的shuffle大概是这么个过程:map端把map输出写成本地文件,reduce端去读取这些文件,然后执行reduce操作。那么,问题来了:reducer是怎么知道它的输入在哪呢?首先,mapper在写完文件之后,肯定能提供与它的输出相关的信息。这个信息,在Spark中由MapStatu...
分类:其他好文   时间:2015-09-13 09:20:17    阅读次数:193
spark core源码分析15 Shuffle详解-写流程
Shuffle是一个比较复杂的过程,有必要详细剖析一下内部写的逻辑 ShuffleManager分为SortShuffleManager和HashShuffleManager 一、SortShuffleManager 每个ShuffleMapTask不会为每个Reducer生成一个单独的文件;相反,它会将所有的结果写到一个本地文件里,同时会生成一个index文件,Reducer可以通过这个index文件取得它需要处理的数据。避免产生大量的文件的直接收益就是节省了内存的使用和顺序Disk IO带来的低延时。 ...
分类:其他好文   时间:2015-09-12 09:37:25    阅读次数:197
Hadoop学习之MapReduce执行过程详解
转自:http://my.oschina.net/itblog/blog/275294分析MapReduce执行过程MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己...
分类:其他好文   时间:2015-09-05 14:55:31    阅读次数:241
450条   上一页 1 ... 34 35 36 37 38 ... 45 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!