Spark 1.2.0是在1.X线的第三个版本。此版本带来了Spark的核心引擎性能和可用性方面的改进,一个重要的MLlib新API,Python的扩展ML支持,一个完全高可用的Spark流模式,等等。 GraphX已经看到主要性能和API改进,已经从alpha组件毕业。Spark 1.2代表来自60多个机构的172贡献者的1000个补丁的工作。...
分类:
数据库 时间:
2014-12-20 14:17:05
阅读次数:
304
课程介绍本课程是世界上第一Spark企业级最佳实践课程,课程包含:Spark的架构设计;Spark编程模型;Spark内核框架源码剖析;Spark的广播变量与累加器;Shark的原理和使用;Spark的机器学习;Spark的图计算GraphX;SparkSQL;Spark实时流处理;Spark程序的...
分类:
其他好文 时间:
2014-12-20 02:09:20
阅读次数:
227
如何把云计算大数据处理速度提高100倍以上?Spark给出了答案。Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上,下图来自Spark的官方网站:LogisticregressioninHadoopandSpark可以看出在Sp...
分类:
其他好文 时间:
2014-12-20 02:07:34
阅读次数:
361
Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。大数据时代的精髓技术在于Hadoop、Yarn、Spark,是大数据时代公司和个人必须掌握和使用的核心内容。Hadoop、Yarn、Spark是Yahoo!、阿里淘宝...
分类:
其他好文 时间:
2014-12-20 02:06:55
阅读次数:
314
Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。课程简介王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)大数据时...
分类:
其他好文 时间:
2014-12-20 02:05:27
阅读次数:
286
王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)Spark亚太研究院院长和首席专家,中国目前唯一的移动互联网和云计算大数据集大成者。Spark亚太研究院院长和首席专家,移动互联网、云计算和大数据技术...
分类:
其他好文 时间:
2014-12-20 02:03:01
阅读次数:
353
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据,则MapReduce为海量的数据提供了计算。Hadoop 容易开发和运行处理大...
分类:
其他好文 时间:
2014-12-19 10:07:54
阅读次数:
307
object LogicHandle { def main(args: Array[String]) { //添加这个不会报执行错误 val path = new File(".").getCanonicalPath() System.getProperties().put("h...
分类:
Web程序 时间:
2014-12-18 20:32:51
阅读次数:
255
spark 、storm提供了向Cassandra直接存储数据的功能。但是国内对Cassandra本身的源码研究不深,参考资料较少。我将最近研究的源码分析贴上,和大家一起共享。...
分类:
其他好文 时间:
2014-12-18 18:49:24
阅读次数:
226
转自:http://www.cnblogs.com/hseagle/p/3673132.html概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕spark运...
分类:
Web程序 时间:
2014-12-18 14:52:05
阅读次数:
267