Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:
其他好文 时间:
2014-12-23 06:39:55
阅读次数:
217
Spark 1.2.0是在1.X线的第三个版本。此版本带来了Spark的核心引擎性能和可用性方面的改进,一个重要的MLlib新API,Python的扩展ML支持,一个完全高可用的Spark流模式,等等。 GraphX已经看到主要性能和API改进,已经从alpha组件毕业。Spark 1.2代表来自60多个机构的172贡献者的1000个补丁的工作。...
分类:
数据库 时间:
2014-12-20 14:17:05
阅读次数:
304
基于Spark On Yarn的淘宝数据挖掘平台:http://www.doc88.com/p-7804379529208.htmlSpark之MLLib机器学习库:http://blog.csdn.net/johnny_lee/article/details/25656343Spark之ALS(推...
分类:
其他好文 时间:
2014-12-02 23:49:03
阅读次数:
230
1.什么是MLBaseMLBase是Spark生态圈的一部分,专注于机器学习,包含三个组件:MLlib、MLI、ML Optimizer。ML Optimizer: This layer aims to automating the task of ML pipeline construction....
分类:
编程语言 时间:
2014-10-19 18:30:41
阅读次数:
336
2014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0 源码编译和部署包生成 。
Spark1.1.0中变化较大是sparkSQL和MLlib,sparkSQL1.1.0主要的变动有:
增加了JDBC/ODBC Server(ThriftServer),...
分类:
数据库 时间:
2014-09-15 10:05:48
阅读次数:
306
Spark之所以万人瞩目,除了内存计算,还有其ALL-IN-ONE的特性,实现了One stack rule them all。下面简单模拟了几个综合应用场景,不仅使用了sparkSQL,还使用了其他Spark组件:
店铺分类,根据销售额对店铺分类货品调拨,根据货品的销售数量和店铺之间的距离进行货品调拨
前者将使用sparkSQL+MLlib的聚类算法,后者将使用s...
分类:
数据库 时间:
2014-09-11 09:39:41
阅读次数:
292
In this chapter, we will use MLlib to make personalized movie recommendations tailored for you. We will work with 10 million ratings from 72,000 users...
分类:
其他好文 时间:
2014-08-30 18:54:20
阅读次数:
587
本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读。
分类:
其他好文 时间:
2014-08-25 20:55:34
阅读次数:
2698
本文简要描述线性回归算法在Spark MLLib中的具体实现,涉及线性回归算法本身及线性回归并行处理的理论基础,然后对代码实现部分进行走读。
分类:
其他好文 时间:
2014-08-15 21:05:49
阅读次数:
562
自然语言处理
ScalaNLP—机器学习和数值计算库的套装
Breeze —Scala用的数值处理库
Chalk—自然语言处理库。
FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。
数据分析/数据可视化
MLlib in Apache Spark—Spark下的分布式机器学...
分类:
其他好文 时间:
2014-07-29 13:01:37
阅读次数:
372