码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark RDD整理
参考Spark RDD资料,对RDD概念、作用、操作、处理原理等进行了整理。
分类:其他好文   时间:2016-01-24 10:23:39    阅读次数:168
Spark异步job
What if we want to execute 2 actions concurrently on different RDD’s, Spark actions are always synchronous. Like if we perform two actions one after o...
分类:其他好文   时间:2016-01-21 18:37:35    阅读次数:232
Spark IMF传奇行动第16课RDD实战总结
今晚听了王家林老师的Spark IMF传奇行动第16课RDD实战,课堂笔记如下:RDD操作类型:Transformation、Action、Contollerreduce要符合交换律和结合律val textLines = lineCount.reduceByKey(_+_,1)textLines.c...
分类:其他好文   时间:2016-01-21 01:47:53    阅读次数:153
Spark3000门徒第15课RDD创建内幕彻底解密总结
今晚听了王家林老师的第15课RDD创建内幕彻底解密,课堂笔记如下:Spark driver中第一个RDD:代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法创建RDD的方法:1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;...
分类:其他好文   时间:2016-01-19 00:01:54    阅读次数:170
Spark3000门徒第14课spark RDD解密总结
今晚听了王家林老师的第14课spark RDD解密,课堂笔记如下:Spark是基于工作集的应用抽象,RDD:Resillient Distributed Dataset是基于工作集的,spark可以对结果重用。位置感知:spark比hadoop更精致。RDD是lazy的,是分布式函数式编程的抽象,R...
分类:其他好文   时间:2016-01-18 00:27:02    阅读次数:300
Spark RDD解密
1.基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入数据到物理设备; 基于数据集的操作不适应的场景:不适合于大量的迭代:不适合交互式查询:每次查询都需要对磁盘进行交互.基于数据流的方式不能够复用曾经的结果或者中间的结果;2. RDD弹性数据集特点: A)自动的进行内存和磁盘数据的...
分类:其他好文   时间:2016-01-17 22:58:04    阅读次数:206
SparkContext和RDD
SparkContext.scala实现了一个SparkContext的class和object,SparkContext类似Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。在Spark框架下该类在一个JVM中只加载一次。在加载类的阶段,SparkContext类中定义的属性...
分类:其他好文   时间:2016-01-17 06:23:44    阅读次数:258
第5课:彻底精通Scala隐式转换和并发编程及Spark源码阅读
隐式转换函数implicit def function例如implicit def rddToPairRDDFunctions[K, V](rdd: RDD[(K, V)])scala> class Person(val name: String)defined class Personscala>...
分类:其他好文   时间:2016-01-13 00:35:22    阅读次数:261
Spark1.6 DataSets简介
Apache Spark提供了强大的API,以便使开发者为使用复杂的分析成为了可能。通过引入SparkSQL,让开发者可以使用这些高级API接口来从事结构化数据的工作(例如数据库表,JSON文件),并提供面向对象使用RDD的API,开发只需要调用相关 的方法便可使用spark来进行数据的存储与计.....
分类:其他好文   时间:2016-01-11 23:29:39    阅读次数:250
Spark3000门徒第七课Spark运行原理及RDD解密总结
今晚听了王家林老师的第七课Spark运行原理及RDD解密,课后作业是:spark基本原理,我的总结如下:1spark是分布式 基于内存 特别适合于迭代计算的计算框架2mapReduce就两个阶段map和reduce,而spark是不断地迭代计算,更加灵活更加强大,容易构造复杂算法。3spark不能取...
分类:其他好文   时间:2016-01-09 01:00:35    阅读次数:235
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!