码迷,mamicode.com
首页 > 其他好文 > 详细

Spark

时间:2020-07-06 19:30:48      阅读:57      评论:0      收藏:0      [点我收藏+]

标签:快速   分类算法   分布   分类   模式   生态   框架   mic   mapred   

1、Spark是什么

Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集

2、Spark核心概念

RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成:

  • 一组partition
  • 每个partition的计算函数
  • 所依赖的RDD列表(即父RDD列表)
  • (可选的)对于key-value类型的RDD(每个元素是key-value对),则包含一个Partitioner(默认是HashPartitioner)。
  • (可选的)计算每个partition所倾向的节点位置(比如HDFS文件的存放位置)

DAG:Spark是一个通用DAG引擎,这使得用户能够在一个应用程序中描述复杂的逻辑,以便于优化整个数据流(比如避免重复计算等),并让不同计算阶段直接通过本地磁盘或内存交换数据(而不是像MapReduce那样通过HDFS)

3、Spark生态系统

Spark Streaming:基于Spark Core实现的流式计算框架,其基本思想是将流式数据以时间为单位切割成较小的RDD,并启动一个应用程序处理单位时间内的RDD。简而言之,它将流式计算转化成微批处理(micro-batch),借助高效的Spark引擎进行快速计算

Spark SQL:基于Spark实现的SQL引擎,能将SQL转换成Spark应用程序,提交到集群中运行

MLLib:基于Spark实现的机器学习库,实现了常用的机器学习和数据挖掘算法,包括聚类算法、分类算法、推荐算法等

 GraphX:基于Spark实现的图计算框架,提供了通用的图存储模式和图计算模式。

Spark

标签:快速   分类算法   分布   分类   模式   生态   框架   mic   mapred   

原文地址:https://www.cnblogs.com/yayazhang221/p/13256368.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!