搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

王家林每日大数据语录Spark篇0012（2015.11.2于深圳）

可以从两个方面来理解RDD之间的依赖关系，一方面是RDD的parentRDD(s)是什么，另一方面是依赖于parentRDD(s)哪些Partions(s);根据依赖于parentRDD(s)哪些Partions(s)的不同情况，Spark讲Dependency分为宽依赖和窄依赖两种。

分类：其他好文时间：2015-12-16 12:50:52 阅读次数：144

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

RDD在创建子RDD的时候，会通过Dependency来定义他们之间的关系，通过Dependency，子RDD可以获得parentRDD(s)和parentRDD(s)的Partition(s).

分类：其他好文时间：2015-12-16 12:49:54 阅读次数：169

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

Spark中生成的不同的RDD中有的喝用户的逻辑显式的对于，例如map操作会生成MapPartitionsRDD，而又的RDD则是Spark框架帮助我们隐式生成的，例如reduceByKey操作时候的ShuffledRDD.

分类：其他好文时间：2015-12-16 12:49:23 阅读次数：148

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

SparkCheckpoint通过将RDD写入Disk做检查点，是Sparklineage容错的辅助，lineage过长会造成容错成本过高，这时候在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage，就会减少开销。Checkpoint主要适用于以下两种情况：1.DAG中的Linea..

分类：其他好文时间：2015-12-16 12:48:23 阅读次数：134

Spark中的键值对操作-scala

1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为PairRDD。PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如，PairRDD提供了reduceByKey()方法，可以分别规约每个键对应的数据，还有join()方法，可以把两...

分类：其他好文时间：2015-12-07 20:57:08 阅读次数：534

Spark MLlib知识点整理

MLlib的设计原理:把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法，返...

分类：其他好文时间：2015-12-06 22:41:01 阅读次数：6301

Spark学习之路---Spark核心概念

Spark核心概念简介一个Spark应用都由驱动器程序发起集群上的各种并发操作，一个驱动器程序一般包含多个执行器节点，驱动器程序通过一个SaprkContext对象访问saprk。RDD(弹性分布式数据集)----分布式的元素集合，RDD支持两种操作：转化操作、行动操作，如map、reduce函数。

分类：其他好文时间：2015-12-05 17:57:49 阅读次数：158

spark遇到的错误1-内存不足

原来的代码： JavaRDD javaRdd = rdd.flatMap(new FlatMapFunction() { private static final long serialVersionUID = 10000L; List newList =...

分类：其他好文时间：2015-12-02 20:23:55 阅读次数：180

spark使用总结

背景使用spark开发已有几个月。相比于python/hive，scala/spark学习门槛较高。尤其记得刚开时，举步维艰，进展十分缓慢。不过谢天谢地，这段苦涩（bi）的日子过去了。忆苦思甜，为了避免项目组的其他同学走弯路，决定总结和梳理spark的使用经验。 Spark基础基石RDD spa...

分类：其他好文时间：2015-11-30 20:19:35 阅读次数：172

spark 中的RDD编程 -以下基于Java api

1.RDD介绍： RDD，弹性分布式数据集，即分布式的元素集合。在spark中，对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后，Spark会自动将RDD中的数据分发到集群中，并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RD...

分类：编程语言时间：2015-11-30 20:11:12 阅读次数：319

共1327条上一页 1 ... 113 114 115 116 117 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)