spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。
木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和...
分类:
数据库 时间:
2014-10-23 12:27:59
阅读次数:
357
前面两章花了不少篇幅介绍了SparkSQL的运行过程,很多读者还是觉得其中的概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan是长得什么样子,没点印象,只知道名词,感觉很缥缈。本章就着重介绍一个工具hive/console,来加深读者对sparkSQL的运行计划的理解。
1:hive/console安装
spa...
分类:
数据库 时间:
2014-10-22 10:11:17
阅读次数:
430
在介绍sparkSQL之前,我们首先来看看,传统的关系型数据库是怎么运行的。当我们提交了一个很简单的查询:
SELECT a1,a2,a3 FROM tableA Where condition
可以看得出来,该语句是由Projection(a1,a2,a3)、Data Source(tableA)、Filter(condition)组成,分别对应sql查询过程中的Result...
分类:
数据库 时间:
2014-10-10 10:48:14
阅读次数:
2980
1.环境OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)Hadoop:Hadoop 2.4.1Hive:0.11.0JDK:1.7.0_60Spark:1.1.0(内置SparkSQL)Scala:2.11.22.Spark集群规划账...
分类:
数据库 时间:
2014-10-09 01:49:27
阅读次数:
306
Spark亚太研究院决胜大数据时代公益大讲坛第五期:SparkSQL架构和案例深入实战,视频地址:http://pan.baidu.com/share/link?shareid=3629554384&uk=4013289088&fid=977951266414309王家林老师(邮箱:18610086...
分类:
数据库 时间:
2014-10-05 00:48:27
阅读次数:
713
第2期Spark亚太研究院决胜云计算大数据时代:100期Spark公益大讲堂之Shark、SparkSQL,视频地址:http://pan.baidu.com/share/link?shareid=3629554384&uk=4013289088&fid=277083257568965王家林老师(邮...
分类:
数据库 时间:
2014-10-04 23:51:27
阅读次数:
323
Spark视频第2期:Shark、SparkSQL地址:http://pan.baidu.com/share/link?shareid=3629554384&uk=4013289088&fid=277083257568965王家林老师(邮箱:18610086859@126.com QQ: 17404...
分类:
数据库 时间:
2014-10-04 01:05:45
阅读次数:
266
最近想对自己学的东西做些回顾,想到写博客是个不错的方式,方便他人也有利自己,刚开始写不足之处大家多担待。 编译前需要安装JDK1.6以上、scala、Maven、Ant、hadoop2.20 如下图(/etc/profile): Spark编译有提供了两种方式: Maven 在 /etc/profi...
分类:
其他好文 时间:
2014-10-02 21:24:03
阅读次数:
412
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第13期互动问答分享】Q1:tachyon+spark框架现在有很多大公司在使用吧?Yahoo!已经在长期大规模使用;国内也有公司在使用;Q2:impala和sparksql如何选择呢?Impala已经被官方宣布“安乐死”,被官方温柔的放弃;Spark..
分类:
其他好文 时间:
2014-09-24 13:32:07
阅读次数:
244
2014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0 源码编译和部署包生成 。
Spark1.1.0中变化较大是sparkSQL和MLlib,sparkSQL1.1.0主要的变动有:
增加了JDBC/ODBC Server(ThriftServer),...
分类:
数据库 时间:
2014-09-15 10:05:48
阅读次数:
306