一 概述 MRv1主要由编程模型(MapReduce API)、资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成。而YARN出现之后。资源管理模块则交由YARN实现,这样为了让MapReduce框架执行在 ...
分类:
移动开发 时间:
2017-07-03 15:11:06
阅读次数:
282
MapReduce&HDFS简介一、Hadoop简介: 结构化数据:表,关系型数据库//有严格的约束 半结构化数据:html,json,yaml,有元数据//有约束,缺少严格的约束 非结构化数据:没有预定义的模型,元数据//日志数据等 搜索引擎:搜索组件、索引组件 网络爬虫:爬到的内容多为半结构化或..
分类:
其他好文 时间:
2017-07-03 15:07:36
阅读次数:
173
权作《Spark快速大数据分析》学习笔记 定义:Spark是一个用来实现 快速 而 通用 的集群计算平台;(通用的大数据处理引擎;) 改进了原Hadoop MapReduce处理模型,体现在三方面: a. 速度;(内存计算) b. 不仅支持批处理,还支持交互式查询(速度快的成果)、流式计算、机器学习 ...
分类:
其他好文 时间:
2017-07-02 16:20:16
阅读次数:
234
一、hadoop自带的性能基准评测工具 (一)TestDFSIO 1、测试写性能 (1)若有必要,先删除历史数据 $hadoop jar /home/hadoop/hadoop/share/hadoop/mapreduce2/hadoop-mapreduce-client-jobclient-2.3 ...
分类:
其他好文 时间:
2017-07-01 14:37:03
阅读次数:
216
选中项目点击build path,导入以下的外部jar包 hadoop-2.7.2/share/hadoop/mapreduce下的所有jar包(子文件夹下的jar包不用) hadoop-2.7.2/share/hadoop/common下的hadoop-common-2.7.2.jar hadoo ...
分类:
编程语言 时间:
2017-06-29 13:32:42
阅读次数:
138
一、输入格式 1、输入分片split 一个分片对应一个map任务; 一个分片包含一个表(整个文件)上的若干行,而一条记录(单行)对应一行; 分片包含一个以字节为单位的长度 和 一组存储位置,分片不包含实际的数据; map处理时会用分片的大小来排序,优先处理最大的分片; hadoop中Java定义的分 ...
分类:
其他好文 时间:
2017-06-27 23:27:17
阅读次数:
292
一、MRv1 Master - Slave 模式 主要包含4部分:JobTracker,TaskTracker,Task,Client JobTracker:负责整个MR集群的资源监控和作业调度,集群的Master。它把任务进度 和 资源使用量告诉调度器TaskScheduler,由调度器来计划如何 ...
分类:
其他好文 时间:
2017-06-26 10:12:08
阅读次数:
168
Hadoop内核 | MapReduce(分布式计算框架) 源于Google的MapReduce论文 > √发表于2004年12月 √Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点 > √良好的扩展性 √高容错性 √适合PB级以上海量数据的离线处理 ...
分类:
其他好文 时间:
2017-06-25 13:48:26
阅读次数:
117
mapreduce是hadoop的核心组件, 设计理念是移动计算而不是移动数据, mapreduce的思想是'分而治之', 将复杂的任务分解成几个简单的任务去执行 共分为4个步骤: 1, split 切分blcok, 切分为数据片段, split0, split1, split2 计算公式为: 2, ...
分类:
其他好文 时间:
2017-06-24 19:40:44
阅读次数:
167
1.新建一个WCMapper继承Mapper public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable> { public class WCMapper extends Mapper<LongWritabl ...
分类:
其他好文 时间:
2017-06-11 15:40:38
阅读次数:
224