回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。
基本概念:
SchemaRDD
RuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan
运行架构:
sqlContext运行架构hiveContext运行架构
基本操作
原生RDD的操作parquet文件的操作j...
分类:
数据库 时间:
2014-10-23 12:29:53
阅读次数:
298
spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。
木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和...
分类:
数据库 时间:
2014-10-23 12:27:59
阅读次数:
357
前面两章花了不少篇幅介绍了SparkSQL的运行过程,很多读者还是觉得其中的概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan是长得什么样子,没点印象,只知道名词,感觉很缥缈。本章就着重介绍一个工具hive/console,来加深读者对sparkSQL的运行计划的理解。
1:hive/console安装
spa...
分类:
数据库 时间:
2014-10-22 10:11:17
阅读次数:
430
It is very easy to install a Spark cluster (Standalone mode). In my example, I used three machines. All machines run a OS of ubuntu 12.04 32bit. One m...
分类:
其他好文 时间:
2014-10-21 17:20:33
阅读次数:
192
从控制台我们可以看见有两个DataNode,此时我们点击“Live Nodes”查看一下其信息: 从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2,这正是我们预期中的! 第三步:启动yarn集群 使用jps命令...
分类:
其他好文 时间:
2014-10-21 10:32:36
阅读次数:
169
从控制台我们可以看见有两个DataNode,此时我们点击“LiveNodes”查看一下其信息:从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2,这正是我们预期中的!第三步:启动yarn集群使用jps命令可以发现SparkMaster机器上启动了ResourceManager进程:而在SparkWo..
分类:
其他好文 时间:
2014-10-21 10:27:47
阅读次数:
163
从控制台我们可以看见有两个DataNode,此时我们点击“Live Nodes”查看一下其信息:
从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2,这正是我们预期中的!
第三步:启动yarn集群
使用jps命令可以发现SparkMaster机器上启动了ResourceManager进程:
而在Spa...
分类:
其他好文 时间:
2014-10-21 10:24:25
阅读次数:
230
从控制台我们可以看见有两个DataNode,此时我们点击“Live Nodes”查看一下其信息:从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2,这正是我们预期中的!第三步:启动yarn集群使用jps命令可以发现SparkMaster机器上启动了Res...
分类:
其他好文 时间:
2014-10-21 10:16:02
阅读次数:
221
1、错误描述
TypeError: Error #1034: 强制转换类型失败:无法将 mx.controls::DataGrid@9aa90a1 转换为 spark.core.IViewport。
at mx.binding::Binding/defaultDestFunc()[E:\dev\4.0.0\frameworks\projects\framework\src\mx\binding...
分类:
其他好文 时间:
2014-10-19 18:41:58
阅读次数:
266
在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺序计算的Stage,Stage中包含了可以以partition为单位并行计算的Task。我们并没有分析Stage中得Task是如何生成并且最终提交到Executor中去的。
这就是本文的主题。...
分类:
其他好文 时间:
2014-10-19 18:38:46
阅读次数:
299