1. 从输入到输出一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的...
分类:
其他好文 时间:
2017-01-01 16:32:14
阅读次数:
229
mapreducer计算原理 InputFormat InputFormat的默认实现是TextInputFormat InputSplit 是mapreducer对文件进行处理和运算的输入单位。只是一个逻辑概念。每一个InputSplit并没有对文件进行实际的切割。只是记录了要处理文件的位置信息( ...
分类:
其他好文 时间:
2016-08-19 18:50:32
阅读次数:
294
/* 第一步 split 有系统自动切分 第二步 map 撰写map类extemds Maper 复写Map方法; 第三步 shuffle Partion 分区,将不同信息区分的分发到不同的Reducer中 Sort 排序,按照key的不同标准判断顺序 Group 分组,按照不同的key值判断相同的 ...
分类:
其他好文 时间:
2016-08-16 00:41:45
阅读次数:
228
通过本文的学习主要是进一步了解海量数据挖掘的框架流程,对数据采集流程、内容识别、知识库的建立以及行为轨迹增强有初步的了解,学会简单的url清洗以及能够开发出简单的分类MapReducer程序。对于运营商来说,使用海量数据挖掘对客户移动互联网行为进行采集,分析,发现用户关注的内容,为开展营销提供号码支持。当然,也不局限于这些功能。例如一个用户在用手机看小说,那么肯定有一个url的网址啦,用户所有访问的网址,ip,时间戳,上下行流量,基站,网络模式,手机型号等一大串信息都会被记录下来并在运营商的的云端进行存储...
分类:
移动开发 时间:
2016-06-17 07:24:29
阅读次数:
330
昨天听朋友说了一个题目,具体的题目忘了!有数据是这样的:<1,0>
<2,8>
<1,9>
<2,7>
<1,0>
<3,15>
<5,20>
<3,25>
<4,20>
<3,50>要得到结果试着样的:12
22
33
41
51对左侧数据的统计,对右侧数据的去重;当左侧..
分类:
其他好文 时间:
2015-12-07 00:45:19
阅读次数:
131
MapReducer源码解析(笔记) 第一步,读取数据源,将每一行内容解析成一个个键值对,每个键值对供map函数定义一次,数据源由FileInputFormat:指定的,程序就能从地址读取记录,读取的记录每一行内容是如何转换成一个个键值对?Mapper函数是如何调用键值对?这是由InputForma...
分类:
其他好文 时间:
2015-09-12 13:33:48
阅读次数:
286
为什么需要在Mapper端进行归约处理?
为什么可以在Mapper端进行归约处理?
既然在Mapper端可以进行归约处理,为什么在Reducer端还要处理?...
分类:
其他好文 时间:
2015-07-28 10:55:06
阅读次数:
119
package com.billstudy.mr.friends;
import java.io.IOException;
import java.util.Arrays;
import java.util.concurrent.TimeUnit;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs....
分类:
其他好文 时间:
2015-06-26 09:21:03
阅读次数:
107
一:Counter计数器的使用/** * 度量,在运行job任务的时候产生了那些j输出.通过计数器可以观察整个计算的过程,运行时关键的指标到底是那些.可以表征程序运行时一些关键的指标. * 计数器 counter 统计敏感单词出现次数 */public class WordCountApp { .....
分类:
其他好文 时间:
2015-06-09 07:24:07
阅读次数:
112
Partitioner就是对map输出的key进行分组,不同的组可以指定不同的reduce task处理;
Partition功能由partitioner的实现子类来实现
每写一段代码都会加深理解,程序里记录了自己的理解
FlowBean类源码:
package cn.zxl.flowcountpartitioner;
import java.io.DataInput;
import j...
分类:
其他好文 时间:
2015-05-31 12:30:41
阅读次数:
274