1、用于map的输入,先将输入数据切分成相等的分片,为每一个分片创建一个map worker,这里的切片大小不是随意订的,一般是与HDFS块大小一致,默认是64MB,一个节点上存储输入数据切片的最大size就是HDFS的块大小,当设置的切片size大于HDFS块大小,会引起节点之间的传输,占用带宽。...
分类:
其他好文 时间:
2015-03-03 21:58:56
阅读次数:
138
Hadoop自连接
实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。
child parent
Tom Lucy
Tom Jack
Jone Lucy
Jone Jack
Lucy ...
分类:
其他好文 时间:
2015-01-02 09:50:09
阅读次数:
224
Hadoop 默认排序
1 3
1 2
1 1
3 3
3 2
2 2
2 1
3 1
排序后:左右前面一列排序 后面一列不排序 要想第二列也排序 请看 Hadoop二次排序
1 3
1 2
1 1
2 2
2 1
3 3
3 2
3 1
代码为:
...
分类:
编程语言 时间:
2014-12-31 18:38:32
阅读次数:
215
hadoop 二次排序
1 3
1 2
1 1
3 3
3 2
2 2
2 1
3 1
排序后:
1 1
1 2
1 3
2 1
2 2
3 1
3 2
3 3
代码为:
package com.hadoop.test.SecondSort;
im...
分类:
编程语言 时间:
2014-12-31 18:36:32
阅读次数:
149
Hadoop二次排序的其他写法
二次排序原理
在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。
本例子中使用的是TextInputFormat,他提供的RecordReader会将文本的字节偏移量作为key,这一行的文本作为value。
这...
分类:
编程语言 时间:
2014-12-31 18:34:28
阅读次数:
316
hadoop join问题1
Join讲解1: 获取员工所在部门信息,输出格式要求:员工编号,员工姓名,部门名称,部门编号
1、原始数据
员工数据
empno ename
job mgr
hiredate sal
comm deptno
loc
7499 allen
salesman 7698
1981-02-20 1600
300 30 ...
分类:
其他好文 时间:
2014-12-29 21:35:16
阅读次数:
213
hadoop 处理日志
127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038
182.131.89.195 - - [03/Jul/2014:23:37:43 +0800] "GET / HTTP/1.0" 301 - 0.000
127.0.0.1 - -...
分类:
其他好文 时间:
2014-12-29 18:27:25
阅读次数:
125