码迷,mamicode.com
首页 > 其他好文 > 详细

初识Spark(Spark系列)

时间:2014-11-13 20:40:19      阅读:129      评论:0      收藏:0      [点我收藏+]

标签:style   http   ar   os   使用   sp   java   数据   on   

1.Spark

Spark是继Hadoop之后,另外一种开源的高效大数据处理引擎,目前已提交为apach顶级项目。

效率:

据官方网站介绍,Spark是Hadoop运行效率的10-100倍(随内存计算、磁盘计算的不同而不同)。

语言:

支持的语言包括java、scala、python等,此外还支持SQL查询。

模块:

Spark的模块分为 Spark SQL、 MLlib、 GraphX、 Spark Streaming四个模块,在同一个应用中可以无缝的使用以上四个模块。

运行环境:

 Hadoop,Mesos,单机, 云环境

数据源:

支持HDFS、HBase、MongoDB、Cassandra以及其他Hadoop可以读取的数据源。

 

2.MLlib:

基于Spark的机器学习库。

针对迭代次数较多的算法和模型,比较适合在spark的MLlib中执行。

算法包括:K-means、奇异值分解、SVM、贝叶斯等

 

 

待续...

日期:2014-11-13

 

初识Spark(Spark系列)

标签:style   http   ar   os   使用   sp   java   数据   on   

原文地址:http://www.cnblogs.com/Deron/p/4095758.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!