1 概述 1.1 为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如 ...
分类:
其他好文 时间:
2018-12-19 15:40:42
阅读次数:
170
9.1 基于迭代处理平台的并行算法: 不动点: 核心观点: 迭代例析: 1.PageRank(网络连接分析) ...
分类:
其他好文 时间:
2018-12-18 02:31:47
阅读次数:
120
一. 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL(Hive Query Language)转化成MapReduce程序 1)Hive处 ...
分类:
其他好文 时间:
2018-12-17 18:57:04
阅读次数:
217
MapReduce 离线计算框架 分而治之 input map shuffle reduce output 分布式并行的计算框架 将计算过程分为两个阶段,Map和Reduce Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总 Shuffle链接Map和Reduce两个阶段 Map T ...
分类:
其他好文 时间:
2018-12-17 14:30:40
阅读次数:
198
一 介绍 之所以存在Reduce Join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的,因为shuffle阶段要进行大量的数据传输。 Map Join是针对以下场景进行的优化:两个待连接表中,有一个表 ...
分类:
其他好文 时间:
2018-12-15 23:52:26
阅读次数:
239
Hadoop官网 http://hadoop.apache.org/ Hadoop来源 GFS HDFS MapReduce MapReduce BigTable HBase Common The common utilities that support the other Hadoop modu ...
分类:
其他好文 时间:
2018-12-14 01:09:30
阅读次数:
214
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分布式处理(Scala) ...
分类:
其他好文 时间:
2018-12-13 19:30:31
阅读次数:
132
首先放一张官方图片,大致了解下整个MapReduce的处理过程。 抛出如下疑问: 1、MapReduce的基本原理是什么?即利用什么机制来实现的任务拆分处理? 2、MapReduce任务执行过程是什么?任务怎么提交?如何运行?哪个组件或者模块可以监控任务的运行状态,比如YARN服务?数据存储(原始数 ...
分类:
其他好文 时间:
2018-12-13 01:07:58
阅读次数:
243
1.outputFormat接口实现类 2.自定义outputFormat 步骤: 1). 定义一个类继承FileOutputFormat 2). 定义一个类继承RecordWrite,重写write方法 3. 案例 有一个log文件,将包含nty的输出到nty.log文件,其他的输出到other. ...
分类:
其他好文 时间:
2018-12-12 20:40:19
阅读次数:
235
1. Combiner概述 2. 自定义Combiner实现步骤 1). 定义一个Combiner继承Reducer,重写reduce方法 2). 在Driver类中添加设置 效果 ...
分类:
其他好文 时间:
2018-12-12 19:39:44
阅读次数:
172