码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
王家林每日大数据语录Spark篇0012(2015.11.2于深圳)
可以从两个方面来理解RDD之间的依赖关系,一方面是RDD的parentRDD(s)是什么,另一方面是依赖于parentRDD(s)哪些Partions(s);根据依赖于parentRDD(s)哪些Partions(s)的不同情况,Spark讲Dependency分为宽依赖和窄依赖两种。
分类:其他好文   时间:2015-12-16 12:50:52    阅读次数:144
王家林每日大数据语录Spark篇0016(2015.11.6于南宁)
RDD在创建子RDD的时候,会通过Dependency来定义他们之间的关系,通过Dependency,子RDD可以获得parentRDD(s)和parentRDD(s)的Partition(s).
分类:其他好文   时间:2015-12-16 12:49:54    阅读次数:169
王家林每日大数据语录Spark篇0020(2015.11.11于重庆)
Spark中生成的不同的RDD中有的喝用户的逻辑显式的对于,例如map操作会生成MapPartitionsRDD,而又的RDD则是Spark框架帮助我们隐式生成的,例如reduceByKey操作时候的ShuffledRDD.
分类:其他好文   时间:2015-12-16 12:49:23    阅读次数:148
王家林每日大数据语录Spark篇0022(2015.11.18于珠海)
SparkCheckpoint通过将RDD写入Disk做检查点,是Sparklineage容错的辅助,lineage过长会造成容错成本过高,这时候在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。Checkpoint主要适用于以下两种情况:1.DAG中的Linea..
分类:其他好文   时间:2015-12-16 12:48:23    阅读次数:134
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为PairRDD。PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如,PairRDD提供了reduceByKey()方法,可以分别规约每个键对应的数据,还有join()方法,可以把两...
分类:其他好文   时间:2015-12-07 20:57:08    阅读次数:534
Spark MLlib知识点整理
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法,返...
分类:其他好文   时间:2015-12-06 22:41:01    阅读次数:6301
Spark学习之路---Spark核心概念
Spark核心概念简介一个Spark应用都由驱动器程序发起集群上的各种并发操作,一个驱动器程序一般包含多个执行器节点,驱动器程序通过一个SaprkContext对象访问saprk。RDD(弹性分布式数据集)----分布式的元素集合,RDD支持两种操作:转化操作、行动操作,如map、reduce函数。
分类:其他好文   时间:2015-12-05 17:57:49    阅读次数:158
spark遇到的错误1-内存不足
原来的代码: JavaRDD javaRdd = rdd.flatMap(new FlatMapFunction() { private static final long serialVersionUID = 10000L; List newList =...
分类:其他好文   时间:2015-12-02 20:23:55    阅读次数:180
spark使用总结
背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD spa...
分类:其他好文   时间:2015-11-30 20:19:35    阅读次数:172
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RD...
分类:编程语言   时间:2015-11-30 20:11:12    阅读次数:319
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!