看了多篇文档,现总结自己对二次排序的理解; 1.流程 各个阶段; input ---> split ——> recordreader ——> 形成复合键值对textpair? ——> 分区(setGroupingComparatorClass设置的分区方法)输出? ——> 对...
分类:
编程语言 时间:
2014-11-18 16:16:10
阅读次数:
182
(1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类;(2)系统默认的RecordReader是LineRecordReader,如TextInputFormat;而SequenceFileInputFormat的RecordReader是SequenceFile...
分类:
其他好文 时间:
2014-11-07 23:27:35
阅读次数:
263
Mapper的处理过程:1.1. InputFormat 产生 InputSplit,并且调用RecordReader将这些逻辑单元(InputSplit)转化为map task的输入。其中InputSplit是map task处理的最小输入单元的逻辑表示。1.2. 在客户端代码中调用Job类来设置...
分类:
移动开发 时间:
2014-11-07 20:35:57
阅读次数:
188
准备知识:1.在InputFormat<k,v>这个接口中,有两个方法,InputSplit[]getSplits();RecordReader<k,v>getRecordReader();2.mapreduce作业提交与初始化过程。作业提交:(1)命令行提交。。。。(2)获取作业ID,创建HDFS目录(你指定的存放结果的目录)上传文件到HD..
分类:
其他好文 时间:
2014-09-16 19:08:21
阅读次数:
231
本文的主要目的是从源码级别讲解Hadoop中InputFormat和OutputFormat部分,首先简介InputFormat和OutputFormat,然后介绍两个重要的组件,RecordWriter和RecordReader,再以FileInputFormat和FileOutputFormat为例,介绍一组InputFormat和OutputFormat的实现细节,最后以SqoopInput...
分类:
其他好文 时间:
2014-09-16 12:43:40
阅读次数:
196
我们在MapReduce中TextInputFormat分片和读取分片数据源码级分析 这篇中以TextInputFormat为例讲解了InputFormat的分片过程以及RecordReader读取分片数据的过程。接下来咱们分析TableInputFormat的分片信息和数据读取过程。 Tab...
分类:
其他好文 时间:
2014-07-07 20:09:05
阅读次数:
260
InputFormat中的Splits集合的获取;InputFormat是一个接口,该接口有2个成员函数;InputSplit[]
getSplits(JobConf job, int numSplits) throws IOException;RecordReader
getRecordReade...
分类:
其他好文 时间:
2014-05-21 19:21:45
阅读次数:
234
MapTask运行通过执行.run方法:
1.生成TaskAttemptContextImpl实例,此实例中的Configuration就是job本身。
2.得到用户定义的Mapper实现类,也就是map函数的类。
3.得到InputFormat实现类。
4.得到当前task对应的InputSplit.
5.通过InputFormat,得到对应的RecordReader。
6.生成Re...
分类:
其他好文 时间:
2014-05-14 14:31:59
阅读次数:
381