Hadoop的官方案例都在mapreduce.jar文件夹中,提供了mapreduce的基本功能,可用于计算,eg:pi值,计算文档中的字数等 官方案例都在 hadoop-mapreduce-examples-2.7.3.jar 这个jar包中。 命令:hadoop jar ./hadoop-2.7 ...
分类:
其他好文 时间:
2020-04-24 01:40:56
阅读次数:
107
import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import org.apache.hadoop.hbase.cli ...
分类:
其他好文 时间:
2020-04-22 09:54:55
阅读次数:
108
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes ...
分类:
其他好文 时间:
2020-04-22 09:16:07
阅读次数:
55
一:自定义数据类 为什么需要自定义数据类 上一篇文章里面我们自己写了一个mapreduce 里面的Top N的https://www.cnblogs.com/wuxiaolong4/p/12733518.html,我们可以从代码里面看出来,里面用|作分隔符,这种方法不好,会由于你自己的失误导致读取字 ...
分类:
其他好文 时间:
2020-04-19 23:46:13
阅读次数:
104
概述Combinar继承了`Reducer`, 可选过程, 在map端的实现分组(是在map端运行的reduce), 减小网络IO传输; 使用Combiner需要满足的条件Combiner不能影响最终计算结果例如求平均值就不能使用Combiner输出k-v类型必须与map输出一致自定义过程1. 继承... ...
分类:
其他好文 时间:
2020-04-19 13:09:31
阅读次数:
92
概述Map方法之后, 数据首先进入到分区方法, 把数据标记好分区, 然后把数据发送到环形缓冲区; reduce的并行数量以及输出文件的个数, 由分区数决定. 默认分区是根据key的hashCode对ReduceTasks个数取模得到.自定义步骤1.自定义类继承Partitioner, 重写getPa... ...
分类:
其他好文 时间:
2020-04-19 13:01:58
阅读次数:
62
作用 保存执行job任务节点的执行日志 将多个节点执行map任务的日志和最终reduce日志聚合在一起 在mapred-site.xml中添加配置 1 <property> 2 <name>mapreduce.jobhistory.address</name> 3 <value>hostname:1 ...
分类:
其他好文 时间:
2020-04-18 15:52:26
阅读次数:
80
问题:如果在 shuffle 的时候没有指定 reduce 的个数,那么会有多少个 reduce? 如果不指定 reduce 个数的话,就按默认的走: 1、如果自定义了分区函数 partitioner 的话,就按你的分区函数来走。 2、如果没有定义,那么如果设置了 spark.default.par ...
分类:
其他好文 时间:
2020-04-17 12:23:45
阅读次数:
70
一、IP去重示例 数据文件: 192.168.10.111 192.168.10.111 10.32.100.111 192.168.21.111 192.168.10.112 192.168.10.111 192.168.11.111 192.168.12.112 192.168.11.111 I ...
分类:
移动开发 时间:
2020-04-16 00:26:29
阅读次数:
112
db.users.find() select * from users db.users.find({"age" : 27}) select * from users where age = 27 db.users.find({"username" : "joe", "age" : 27}) sel ...
分类:
数据库 时间:
2020-04-12 10:39:35
阅读次数:
110