1.工作流调度器的介绍(1)为什么要使用工作流调度器???-一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等??-各任务单元之间存在时间先后及前后依赖关系??-为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行(2)常见工作流调度器?&e
分类:
其他好文 时间:
2019-01-17 23:55:27
阅读次数:
347
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式:HDFS和YARN 伪分布式搭建,事先启动HDFS和YARN 第一步:开发WordCount示例 第二步:程序打jar包:M ...
分类:
其他好文 时间:
2019-01-16 01:09:45
阅读次数:
481
1.hbase整合Mapreduce 在离线任务场景中,MapReduce访问HBASE数据,加快分析速度和扩展分析能力。从hbase中读取数据(result)publiccla***eadHBaseDataMR{privatestaticfinalStringZK_KEY="hbase.zookeeper.quorum";privatestaticfinalStringZK
分类:
其他好文 时间:
2019-01-15 19:33:58
阅读次数:
224
1.hive的数据倾斜 介绍:只要在分布式一定有shuffle,避免不了出现数据倾斜,在混淆数据的过程中出现数据分布不均匀。比如:在MR编程中reducetask阶中的数据的大小不一致,即很多的数据集中到了一个reducetask中,hive的数据倾斜就是mapreduce的数据倾斜maptaskreducetask最后就是reducetask阶段的数据倾斜。 不会产生数据倾斜
分类:
其他好文 时间:
2019-01-14 21:23:35
阅读次数:
331
一、概念MapReduce:"相同"的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算 块、分片、map、reduce、分组、分区之间对应关系block > split1:1:1个block可以切成1个分片N:1:多个block可以以切成1个分片1:N:1个block可以切成多个 ...
分类:
其他好文 时间:
2019-01-14 15:58:12
阅读次数:
194
1.hive的介绍 什么是hive:Hive是基于hadoop的一个数据仓库工具,实质就是一款基于hdfs的MapReduce计算框架,对存储在HDFS中的数据进行分析和管理。 hive的工作方式:把存放在hive中的数据都抽象成一张二维表格,提供了一个类似于sql语句的操作方式,这些sql语句最终被hive的底层翻译成为MapReduce程序,最终在h
分类:
其他好文 时间:
2019-01-13 21:40:37
阅读次数:
208
1.YARN的基础理论1)关于YARN的介绍:??YARN是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2)hadoop1.x中YARN的不足:??-JobTracker是集群的事务的集中处理,存在单点故障??-JobTracker
分类:
其他好文 时间:
2019-01-13 18:11:46
阅读次数:
388
MapReducer工作流程图:1.MapReduce阶段源码分析1)客户端提交源码分析解释: -判断是否打印日志 -判断是否使用新的API,检查连接 -在检查连接时,检查输入输出路径,计算切片,将jar、配置文件复制到HDFS -计算切片时,计算最小切片数(默认为1,可自定义)和最大切片数(默认是long的最
分类:
其他好文 时间:
2019-01-13 16:06:34
阅读次数:
194
1.自定义InputFormat–数据分类输出 需求:小文件的合并 分析: -在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS -在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并 -在MapReduce处理时,可采用CombineFileIn
分类:
其他好文 时间:
2019-01-13 14:23:38
阅读次数:
167
Storm对比Hadoop,前者更擅长的是实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算。对于Hadoop,本身不擅长实时的数据分析处理。两者的共同点都是分布式架构,而且都类似有主/从关系的概念。 本文不会具体阐述Storm集群和Zookeeper集群如何 ...
分类:
其他好文 时间:
2019-01-13 10:21:39
阅读次数:
236