摘要: RDD:弹性分布式数据集,是一种特殊集合 ? 支持多种来源 ? 有容错机制 ? 可以被缓存 ? 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行 ...
分类:
其他好文 时间:
2016-04-20 22:02:55
阅读次数:
253
1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作 map() {1,2,3} 2.对数据分别为{1,2,3}和{3,4,5}的RDD进行针对两个RDD的转化 ...
分类:
其他好文 时间:
2016-04-18 00:44:33
阅读次数:
409
最近接触到大数据,对于Skpark和Hadoop的料及都停留在第一次听到这个名词时去搜一把看看大概介绍免得跟不上时代的层次。 在实际读了点别人的代码,又自己写了一些之后,虽然谈不上理解加深,至少对于大数据技术的整体布局有了更清晰的认识。 HDFS主要用来存储文件系统,虽然Spark有自己的RDD,但 ...
分类:
编程语言 时间:
2016-04-16 13:50:00
阅读次数:
934
Spark运行原理自我理解:
(1) 首先程序有RDD
Objects分解为DAG有向无环图
(2) 提交DAGScheduler,根据shuffer将DAG分解为一组taskset,即stages
(3) Taskset提交TaskScheduler,每个taskset在分解为多个task,即一个task就是一个split分区
...
分类:
其他好文 时间:
2016-04-15 12:21:40
阅读次数:
552
在Spark的Rdd中,Rdd是分区的。 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。 有两种方法是可以重设Rdd的分区 ...
分类:
其他好文 时间:
2016-04-15 12:01:32
阅读次数:
474
摘要: RDD:弹性分布式数据集,是一种特殊集合 ? 支持多种来源 ? 有容错机制 ? 可以被缓存 ? 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行 ...
分类:
其他好文 时间:
2016-04-12 22:20:20
阅读次数:
824
摘要: RDD:弹性分布式数据集,是一种特殊集合 ? 支持多种来源 ? 有容错机制 ? 可以被缓存 ? 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进 ...
分类:
其他好文 时间:
2016-04-10 06:40:03
阅读次数:
194
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark S ...
分类:
其他好文 时间:
2016-04-09 23:25:02
阅读次数:
361
在Spark的RDD中引入过lineage这一概念。指的是RDD之间的依赖。而Alluxio则使用lineage来表示文件之间的依赖。在代码层面,指的是fileID之间的依赖。 代码中的注释指出: 有了lineage之后,如何使用lineage来实现文件的容错呢? 在源码中,有2个关键类解决了这个问 ...
分类:
其他好文 时间:
2016-03-29 23:38:00
阅读次数:
664