mapreduce设计思想 概念:它是一个分布式并行计算的应用框架它提供相应简单的api模型,我们只需按照这些模型规则编写程序,即可实现"分布式并行计算"的功能。 wordcount经典案例 先写map方法 以下为reduce方法 最后是主类 双击package,可以生成mapreducewordc ...
分类:
其他好文 时间:
2019-03-05 09:19:06
阅读次数:
193
文件切分算法 文件切分算法主要用于确定InputSplit的个数以及每个InputSplit对应的数据段。 FileInputFormat以文件为单位切分成InputSplit。对于每个文件,由以下三个属性值确定其对应的InputSplit的个数。 goalSize:根据用户期望的InputSpli ...
分类:
编程语言 时间:
2019-02-19 00:51:07
阅读次数:
209
Partitioner的作用的对Mapper产生的中间结果进行分片,以便将同一分组的数据交给同一个Reduce处理,Partitioner直接影响Reduce阶段的负载均衡。 MapReduce提供了两个Partitioner实现:HashPartitioner和TotalOederPartitio ...
分类:
其他好文 时间:
2019-02-19 00:38:03
阅读次数:
211
咳咳 先对18年的自己说一声感谢。 辛苦了~ 从大数据开发里一路走来,从小白变成可以独当一面(咕咕)。开森~ 一直忙忙碌碌,不敢停下脚步。最近,开始觉得要做下总结了。 【技术】 hivesql spark streaming CNN RNN GAN 【平台】 hadoop MapReduce yar ...
分类:
其他好文 时间:
2019-02-07 20:43:56
阅读次数:
216
创建Maven工程 在pom.xml文件中添加如下依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependenc ...
分类:
其他好文 时间:
2019-01-20 22:07:59
阅读次数:
184
从Hadoop MR到Spark 回顾hadoop—mapreduce计算过程 MR VS Spark 从Hadoop MR到Spark 回顾hadoop—mapreduce计算过程 MR VS Spark Spark编程模型 核心概念 注意:对比mr里的概念来学习 Spark Applicatio ...
分类:
其他好文 时间:
2019-01-20 17:34:04
阅读次数:
226
原文地址 https://blog.csdn.net/zhruixuan/article/details/85549618 Hadoop的核心是HDFS,YARN,MapReduce。今天先来认识一下MapReduce。 MapReduce是什么 MapReduce是Hadoop中的一种处理大规模数 ...
分类:
其他好文 时间:
2019-01-02 23:23:01
阅读次数:
186
[hadoop@localhost mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /home/hadoop/data/input/sp.txt /home/hadoop/data/output/sp_2018... ...
分类:
其他好文 时间:
2018-12-25 20:20:15
阅读次数:
218
1./usr/local/hadoop/share/hadoop/mapreduce下的所有jar包(子文件夹下的jar包不用)2./usr/local/hadoop/share/hadoop/common下的hadoop-common-2.7.2.jar3./usr/local/hadoop/sh ...
分类:
编程语言 时间:
2018-12-03 01:10:55
阅读次数:
542
1.在主程序中需要添加这几个参数配置 2.需要配置window中的hosts 文件(识别yarn程序配置的主机ip:我在yarn程序中配置的是hadoop1) 修改打 C盘 -> Windows -> System32 -> drives -> etc -> hosts文件 在最下面 增加一行 10 ...