搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark常用函数讲解--Action操作

摘要： RDD：弹性分布式数据集，是一种特殊集合 ? 支持多种来源 ? 有容错机制 ? 可以被缓存 ? 支持并行操作，一个RDD代表一个分区里的数据集RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行 ...

分类：其他好文时间：2016-04-20 22:02:55 阅读次数：253

PairRDD转换操作

1.对一个数据为{1，2，3，3}的RDD进行基本的RDD转化操作 map() {1,2,3} 2.对数据分别为{1，2，3}和{3，4，5}的RDD进行针对两个RDD的转化 ...

分类：其他好文时间：2016-04-18 00:44:33 阅读次数：409

使用Python访问HDFS

最近接触到大数据，对于Skpark和Hadoop的料及都停留在第一次听到这个名词时去搜一把看看大概介绍免得跟不上时代的层次。在实际读了点别人的代码，又自己写了一些之后，虽然谈不上理解加深，至少对于大数据技术的整体布局有了更清晰的认识。 HDFS主要用来存储文件系统，虽然Spark有自己的RDD，但 ...

分类：编程语言时间：2016-04-16 13:50:00 阅读次数：934

Spark学习

Spark运行原理自我理解：（1）首先程序有RDD Objects分解为DAG有向无环图（2）提交DAGScheduler，根据shuffer将DAG分解为一组taskset，即stages （3） Taskset提交TaskScheduler，每个taskset在分解为多个task，即一个task就是一个split分区 ...

分类：其他好文时间：2016-04-15 12:21:40 阅读次数：552

Spark Rdd coalesce()方法和repartition()方法

在Spark的Rdd中，Rdd是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多，但是每个Rdd的数据量比较小，需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。有两种方法是可以重设Rdd的分区 ...

分类：其他好文时间：2016-04-15 12:01:32 阅读次数：474

Spark常用函数讲解--键值RDD转换

摘要： RDD：弹性分布式数据集，是一种特殊集合 ? 支持多种来源 ? 有容错机制 ? 可以被缓存 ? 支持并行操作，一个RDD代表一个分区里的数据集RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行 ...

分类：其他好文时间：2016-04-12 22:20:20 阅读次数：824

Spark函数详解系列--RDD基本转换

摘要： RDD：弹性分布式数据集，是一种特殊集合 ? 支持多种来源 ? 有容错机制 ? 可以被缓存 ? 支持并行操作，一个RDD代表一个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进 ...

分类：其他好文时间：2016-04-10 06:40:03 阅读次数：194

Spark学习笔记总结-入门资料精化

Spark简介 spark 可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。 spark发展迅猛，框架比hadoop更加灵活实用。减少了延时处理，提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark S ...

分类：其他好文时间：2016-04-09 23:25:02 阅读次数：361

Spark RDD揭秘

详细解析SPARK内核揭秘...

分类：其他好文时间：2016-04-07 12:09:11 阅读次数：199

Alluxio/Tachyon如何发挥lineage的作用？

在Spark的RDD中引入过lineage这一概念。指的是RDD之间的依赖。而Alluxio则使用lineage来表示文件之间的依赖。在代码层面，指的是fileID之间的依赖。代码中的注释指出：有了lineage之后，如何使用lineage来实现文件的容错呢？在源码中，有2个关键类解决了这个问 ...

分类：其他好文时间：2016-03-29 23:38:00 阅读次数：664