RDD创建方式 1)从Hadoop文件系统(如HDFS、Hive、HBase)输入创建。2)从父RDD转换得到新RDD。3)通过parallelize或makeRDD将单机数据创建为分布式RDD。 4)基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。 从集合创建RDD ...
分类:
其他好文 时间:
2017-01-20 22:01:33
阅读次数:
331
Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一、聚集、连接操作。 输入分区与输出分区一对一 mapValues mapValues:针对(Key,Value)型数据中的Value进行Map操作,而不对Key进行处理。 方框代表RDD分区。a ...
分类:
其他好文 时间:
2017-01-20 21:57:32
阅读次数:
323
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。 无输出 foreach 对RDD中的每个元素都应用f函数操作,不返回RDD ...
分类:
其他好文 时间:
2017-01-20 21:54:42
阅读次数:
264
SparkContext 通常作为入口函数,可以创建并返回一个RDD。 如把Spark集群当作服务端那Spark Driver就是客户端,SparkContext则是客户端的核心; 如注释所说 SparkContext用于连接Spark集群、创建RDD、累加器(accumlator)、广播变量(br ...
分类:
其他好文 时间:
2017-01-11 15:38:38
阅读次数:
398
今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,stage切分的依据:有宽依赖的时候要进行切分(shuffle的时候, 也就是数据有网络的传递的时候) ...
分类:
其他好文 时间:
2017-01-11 08:07:13
阅读次数:
311
Description 给定K个整数的序列{ N1, N2, ..., NK },其任意连续子序列可表示为{ Ni, Ni+1, ..., Nj },其中 1 <= i <= j <= K。最大连续子序列是所有连续子序列中元素和最大的一个, 例如给定序列{ -2, 11, -4, 13, -5, - ...
分类:
其他好文 时间:
2016-12-28 18:52:00
阅读次数:
246
今天,我们来进入spark学习的第二章,发现有很多事都已经开始变化,生活没有简单的朝自己想去的方向,但是还是需要努力呀,不说鸡汤之类的话了, 开始我们今天的spark的旅程 一.RDD是什么 rdd的中文解释为弹性分布式数据集,全称Resilient Distributed Datases,即内存中 ...
分类:
其他好文 时间:
2016-12-28 07:38:11
阅读次数:
161
首先用help(zip)来看一下帮助文档: 意思是说它返回的是一个元素都为tuple的list,第一个元素tuple由原先的序列1即seq1[0],序列2seq2[0],....组成,第二个元素tuple由seq1[1],seq2[0]....组成,以此类推。。。 举例说明:1。这是比较正常的: ( ...
分类:
编程语言 时间:
2016-12-25 23:43:40
阅读次数:
303
http://blog.csdn.net/whycold/article/details/11771841 http://www.cnblogs.com/rsky/p/4886043.html http://m.blog.csdn.net/article/details?id=52021259 we ...
分类:
其他好文 时间:
2016-12-25 23:34:36
阅读次数:
229