搜索关键字：rdd，搜索到1327个结果！码迷,mamicode.com！

Spark1.0.0生态圈一览

Spark生态圈，也就是BDAS（伯克利数据分析栈），是伯克利APMLab实验室精心打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成，来展现大数据应用的一个平台，其核心引擎就是Spark，其计算基础是弹性分布式数据集，也就是RDD。通过Spark生态圈，AMPLab运用大数据、云计算、通信等各种资源，以及各种灵活的技术方案，对海量不透明的数...

分类：其他好文时间：2014-06-11 06:59:31 阅读次数：288

Spark1.0新特性-->Spark SQL

Spark1.0出来了，变化还是挺大的，文档比以前齐全了，RDD支持的操作比以前多了一些，Spark on yarn功能我居然跑通了。但是最最重要的就是多了一个Spark SQL的功能，它能对RDD进行Sql操作，目前它只是一个alpha版本，喜欢尝鲜的同志们进来看看吧，下面是它的官网的翻译。Spa...

分类：数据库时间：2014-06-02 01:27:13 阅读次数：389

RDD的依赖关系

RDD的依赖关系Rdd之间的依赖关系通过rdd中的getDependencies来进行表示，在提交job后，会通过在DAGShuduler.submitStage-->getMissingParentStagesprivatedefgetMissingParentStages(stage: Stag...

分类：其他好文时间：2014-05-31 05:09:58 阅读次数：331

Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job

从Physical plan到Map-Reduce Plan 注：因为我们重点关注的是Pig On Spark针对RDD的执行计划，所以Pig物理执行计划之后的后端参考意义不大，这些部分主要分析流程，忽略实现细节。入口类MRCompiler，MRCompilier按照拓扑顺序遍历物理执行计划中的节点，将其转换为MROperator，每个MROperator都代表一个map-reduce j...

分类：其他好文时间：2014-05-10 08:46:07 阅读次数：366

Pig源码分析: 简析执行计划的生成

本文通过跟代码的方式，分析从输入一批Pig-latin到输出物理执行计划（与launcher引擎有关，一般是MR执行计划，也可以是Spark RDD的执行算子）的整体流程。不会具体涉及AST如何解析、如何使用了Anltr、逻辑执行计划如何映射、逻辑执行计划如何优化、MR执行计划如何切分为MR Job，而是从输入一批Pig DSL到待执行的真正执行计划的关键变化步骤（方法和类）。...

分类：其他好文时间：2014-05-08 04:00:42 阅读次数：407

Spark中的Scheduler

Spark中的Scheduler scheduler分成两个类型，一个是TaskScheduler与其实现，一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析，根据RDD的依赖生成stage并通知TaskScheduler执行。实例生成 TaskSchedule...

分类：其他好文时间：2014-05-04 09:08:02 阅读次数：379

RDD的依赖关系

RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示，在提交job后，会通过在DAGShuduler.submitStage-->getMissingParentStages privatedefgetMissingParentStages(stage: Stage): List[Stage] = { valmissing =newHash...

分类：其他好文时间：2014-05-03 15:56:22 阅读次数：282

共1327条上一页 1 ... 131 132 133

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)