1.hadoop TextPair组合键定义 package Temperature; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput ...
分类:
其他好文 时间:
2020-02-22 09:13:31
阅读次数:
125
使用MultipleInputs.addInputPath 对多个路径输入 如今如果有三个文件夹,并使用了三个mapper去处理, 经过map处理后,输出的结果会依据key 进行join, 假设使用TextPair,会依据第一个字段jion。第二个字段排序 然后在作为reduce的输入,进行计算 如 ...
分类:
编程语言 时间:
2017-05-31 20:14:05
阅读次数:
194
使用hadoop 进行页面的pv uv 计算
不推荐的做法
将访问者的cookie放在hashmap中进行去重计算uv,因为当访问量大时,会将hashmap撑爆,报出
java.lang.OutOfMemoryError: Java heap space
推荐做法:
使用textpair 将cookie作为second key 进行排序,在reduce中进行判断,如果上一个co...
分类:
其他好文 时间:
2015-01-18 11:55:00
阅读次数:
224
以《Hadoop权威指南》中的一个例子来解释分区与分组的关系。...
分类:
其他好文 时间:
2014-12-12 22:20:47
阅读次数:
186
看了多篇文档,现总结自己对二次排序的理解; 1.流程 各个阶段; input ---> split ——> recordreader ——> 形成复合键值对textpair? ——> 分区(setGroupingComparatorClass设置的分区方法)输出? ——> 对...
分类:
编程语言 时间:
2014-11-18 16:16:10
阅读次数:
182
packagecom.baidu.uilt;
importjava.io.*;
importorg.apache.hadoop.io.*;
publicclassTextPairimplementsWritableComparable<TextPair>{
privateTextfirst;
privateTextsecond;
publicTextPair(){
set(newText(),newText());
}
publicTextPair(Stringfirst,Strings..
分类:
其他好文 时间:
2014-10-04 03:32:06
阅读次数:
303
使用MultipleInputs.addInputPath 对多个路径输入
现在假设有三个目录,并使用了三个mapper去处理,
经过map处理后,输出的结果会根据key 进行join,
如果使用TextPair,会根据第一个字段jion,第二个字段排序
然后在作为reduce的输入,进行计算...
分类:
其他好文 时间:
2014-06-26 07:49:51
阅读次数:
250