码迷,mamicode.com
首页 > 其他好文 > 详细

Spark认识

时间:2015-09-05 23:36:42      阅读:163      评论:0      收藏:0      [点我收藏+]

标签:

  Spark背景:在Spark出现前,要在一个平台内同时完成批处理、机器学习、流失计算、图计算、SQL查询等各种大数据分析人物,就不得不与多种独立的系统打交道,这需要系统间进行代价较大的数据转储。Spark一开始就瞄准了性能,实现了在内存中计算。

1.Spark为什么这么火?采用的编程语言有什么特点?

  Spark是基于内存的迭代计算框架,适用于需要多种操作特定数据集的应用场合,如pageRank、K-means等算就非常适合内存迭代计算,Spark整个生态体系正逐渐完善。Graphx、SparkSQL、SparkStreaming、MLlib,等到Spark有了自己的数据仓库后,就能完全与Hadoop生态体系相媲美。

  Scala采用函数式编程语言,面此对象、函数式、高并发模型。其中有些概念不一样,如隐式转换、模式匹配、伴生类等。简洁强大

2.Spark能够成为Hadoop的替代者?各有什么特点?

  两个侧重点不一样,Spark更适合于迭代运算比较多的ML和DM运算,Spark的RDD可以cache到内存中,那么每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了大量的磁盘IO操作。Hadoop虽然耗时,但在OLAP等大规模数据的应用场景还是很受欢迎的。目前Hadoop涵盖了从数据收集、分布式存储、分布式计算等各个领域,所以在各领域中各有优势

3.淘宝为什么会选择Spark计算框架呢?

  这主要基于淘宝业务的应用场景,其涉及了大规模的数据处理与分析。其主要是应用Spark的Graphx图计算,以便进行用户图计算;基于最大连通图的社区发现,基于三角形计数的关系衡量,基于随机游走的用户属性传播等。

 

Spark认识

标签:

原文地址:http://www.cnblogs.com/kxdblog/p/4784085.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!