码迷,mamicode.com
首页 > 其他好文 > 详细

大数据07 Spark

时间:2020-02-29 17:28:30      阅读:94      评论:0      收藏:0      [点我收藏+]

标签:分布式系统   基本概念   多对一   处理   java   park   不同的   系统   bsp   

Spark 是基于内存的计算, 低延迟.

Apache 基金会3大分布式系统开源项目 Hadoop, Spark, Storm (数据流)

Spark 特点: 处理快, 容易使用(Java,Python,Scala,R). 通用性(包括SQL,机器学习, 流失计算), 运行模式多样

技术图片

 

 技术图片

 

 技术图片

 

Spark生态系统

技术图片

 

 技术图片

 

 不同的软件的问题:

技术图片

 

技术图片

 

Spark 可以一站式提供的解决方案.

技术图片

 

 技术图片

 

 技术图片

 

Spark 基本概念

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 DAG: 有向无环图

技术图片

 

RDD 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

这一系列处理称为一个Lineage(血缘关系), DAG 拓扑排序的结果. 管道化处理.

技术图片

 

 技术图片

 

窄依赖: 1对1,或多对一.

宽依赖: 1对多

Stage划分: 就依赖于 宽/窄依赖

技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

Spark SQL

Shark 即 Hive on Spark. 所以 Shark 与 Hive 很像,只是在最后物理层生成了 Spark, 而不是生成的 MapReduce.

技术图片

 

 Shark 有线程安全. 所以 Shark 被抛弃了, 转到了 SparkSQL 架构.

技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

RDD 的来源更加多元化

 技术图片

 

 技术图片

 

 技术图片

 

 现在比较流行的是 Hadoop + Spark

技术图片

 

 技术图片

 

大数据07 Spark

标签:分布式系统   基本概念   多对一   处理   java   park   不同的   系统   bsp   

原文地址:https://www.cnblogs.com/moveofgod/p/12383908.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!