Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD。通过Spark生态圈,AMPLab运用大数据、云计算、通信等各种资源,以及各种灵活的技术方案,对海量不透明的数...
                            
                            
                                分类:
其他好文   时间:
2014-06-11 06:59:31   
                                阅读次数:
288
                             
                    
                        
                            
                            
                                Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on 
yarn功能我居然跑通了。但是最最重要的就是多了一个Spark 
SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们进来看看吧,下面是它的官网的翻译。Spa...
                            
                            
                                分类:
数据库   时间:
2014-06-02 01:27:13   
                                阅读次数:
389
                             
                    
                        
                            
                            
                                RDD的依赖关系Rdd之间的依赖关系通过rdd中的getDependencies来进行表示,在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStagesprivatedefgetMissingParentStages(stage: 
Stag...
                            
                            
                                分类:
其他好文   时间:
2014-05-31 05:09:58   
                                阅读次数:
331
                             
                    
                        
                            
                            
                                从Physical plan到Map-Reduce Plan
注:因为我们重点关注的是Pig On Spark针对RDD的执行计划,所以Pig物理执行计划之后的后端参考意义不大,这些部分主要分析流程,忽略实现细节。
入口类MRCompiler,MRCompilier按照拓扑顺序遍历物理执行计划中的节点,将其转换为MROperator,每个MROperator都代表一个map-reduce
 j...
                            
                            
                                分类:
其他好文   时间:
2014-05-10 08:46:07   
                                阅读次数:
366
                             
                    
                        
                            
                            
                                本文通过跟代码的方式,分析从输入一批Pig-latin到输出物理执行计划(与launcher引擎有关,一般是MR执行计划,也可以是Spark RDD的执行算子)的整体流程。
不会具体涉及AST如何解析、如何使用了Anltr、逻辑执行计划如何映射、逻辑执行计划如何优化、MR执行计划如何切分为MR Job,而是从输入一批Pig DSL到待执行的真正执行计划的关键变化步骤(方法和类)。...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 04:00:42   
                                阅读次数:
407
                             
                    
                        
                            
                            
                                Spark中的Scheduler
scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。
TaskScheduler:主要负责各stage中传入的task的执行与调度。
DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。
实例生成
TaskSchedule...
                            
                            
                                分类:
其他好文   时间:
2014-05-04 09:08:02   
                                阅读次数:
379
                             
                    
                        
                            
                            
                                RDD的依赖关系
Rdd之间的依赖关系通过rdd中的getDependencies来进行表示,
在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages
privatedefgetMissingParentStages(stage:
 Stage): List[Stage] = {
valmissing
 =newHash...
                            
                            
                                分类:
其他好文   时间:
2014-05-03 15:56:22   
                                阅读次数:
282