第一节:hive的产生背景 mapreduce处理的绝大多数的数据,都是格式化的数据。格式化的数据的处理sql最擅长。mapjoin reducejoin的开发代码要写40行,而sql就一个sql语句就可以了,例如:select * from a join b on a.id=b.id;。 mapr ...
分类:
其他好文 时间:
2019-06-17 01:07:49
阅读次数:
119
尚硅谷大数据技术之Oozie 第1章 Oozie简介 Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调 ...
分类:
其他好文 时间:
2019-06-16 13:47:39
阅读次数:
114
倒排索引建立 需求分析 需求:有大量的文本(文档、网页),需要建立搜索索引 最终实现的结果就是哪个单词在哪个文章当中出现了多少次 思路分析: 首选将文档的内容全部读取出来,加上文档的名字作为key,文档的value为1,组织成这样的一种形式的数据 map端数据输出 hello-a.txt 1tom- ...
分类:
其他好文 时间:
2019-06-16 13:30:53
阅读次数:
106
第五天课程大纲:1、社交粉丝的数据分析:求共同好友2、倒排索引的建立3、自定义inputFormat合并小文件 4、自定义outputformat5、分组求topN6、MapReduce的其他补充 了解7、mapreduce的参数优化 理解8、yarn的资源调度管理 例子1:社交粉丝数据分析 逻辑分 ...
分类:
其他好文 时间:
2019-06-16 00:21:34
阅读次数:
112
reduce端的join算法: 例子: 商品表数据 product: pidp0001,小米5,1000,2000p0002,锤子T1,1000,3000 订单表数据 order: pid1001,20150710,p0001,21002,20150710,p0002,31002,20150710, ...
分类:
编程语言 时间:
2019-06-15 20:29:33
阅读次数:
124
ReduceTask的运行的整个过程 背下来1、启动线程到mapTask那里去拷贝数据,拉取属于每一个reducetask自己内部的数据2、数据的合并,拉取过来的数据进行合并,合并的过程,有可能在内存当中,有可能在磁盘当中,有可能在内存和磁盘当中,合并的时候同时要进行分组操作3、调用reduce逻辑 ...
分类:
其他好文 时间:
2019-06-15 17:34:44
阅读次数:
91
MapReduce表连接操作之Map端join https://blog.csdn.net/lzm1340458776/article/details/42971075 MapReduce表连接操作之Reduce端join https://blog.csdn.net/lzm1340458776/ar ...
分类:
其他好文 时间:
2019-06-15 13:39:34
阅读次数:
143
ShuffleManager(一) 本篇,我们来看一下spark内核中另一个重要的模块,Shuffle管理器ShuffleManager。shuffle可以说是分布式计算中最重要的一个概念了,数据的join,聚合去重等操作都需要这个步骤。另一方面,spark之所以比mapReduce的性能高其中一个 ...
分类:
其他好文 时间:
2019-06-15 09:57:51
阅读次数:
87
1.1 基本概念 Storm是一个流式计算框架,Storm采用Java和Clojure编写,其优点是全内存计算,所以它的定位是分布式实时计算。 Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark类似于Hadoop MapReduce的通用并行计算框架,Spark基 ...
分类:
其他好文 时间:
2019-06-15 00:24:40
阅读次数:
176
1. Hive 基本概念 1.1 Hive 介绍 Hive 由 Facebook 开源用于解决海量结构化日志的数据统计; Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 类SQL 查询功能; 本质是:将 HQL 转化成 MapReduce 程序 ; 1 ...
分类:
其他好文 时间:
2019-06-14 23:48:16
阅读次数:
123