rdd.join的实现:rdd1.join(rdd2) => rdd1.cogroup(rdd2,partitioner) 这是CoGroupedRDD的类声明,其中有两个与java 语法的不同: 1.类型声明中的小于号“<”,这个在scala 中叫做变量类型的上界,也就是原类型应该是右边类型的子类 ...
分类:
其他好文 时间:
2016-12-24 20:10:13
阅读次数:
227
1.StackOverflowError
问题:简单代码记录 :
for (day <- days){
rdd = rdd.union(sc.textFile(/path/to/day) .... )
} ...
分类:
其他好文 时间:
2016-12-24 01:30:50
阅读次数:
298
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这 ...
分类:
其他好文 时间:
2016-12-22 14:33:56
阅读次数:
1192
1.mapValus(fun):对[K,V]型数据中的V值map操作(例1):对每个的的年龄加2 object MapValues { def main(args: Array[String]) { val conf = new SparkConf().setMaster("local").setA ...
分类:
其他好文 时间:
2016-12-22 11:39:59
阅读次数:
227
1.spark core :Spark RDD 核心总结;Spark算子选择策略;spark 核心作业调度和任务调度;spark参数调优 ;Spark 运行架构核心总结;Spark Shuffle原理、Shuffle操作问题解决和参数调优 2.spark sql 或者SQL 方面:这方面一直没有机会 ...
分类:
其他好文 时间:
2016-12-18 21:12:00
阅读次数:
172
RDD 优点: 编译时类型安全编译时就能检查出类型错误 面向对象的编程风格直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销频繁的创建和销毁对象, 势必会增加GCimport org.ap... ...
分类:
其他好文 时间:
2016-12-14 21:52:16
阅读次数:
390
一:知识点 对文件的访问方式一般有三种模式:读模式('r')、写模式('w')或追加模式('a'). 另外两种可混合使用的模式: 二进制模式(‘b’),读/写模式(‘+’)。 如:‘rb’: 读取二进制文件模式 ‘r+’:可读可写模式 写文件的流程:1:可写方式打开文件 2:写文件操作 3:关闭文件 ...
分类:
编程语言 时间:
2016-12-14 11:40:35
阅读次数:
266
前言 很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。 比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导: 如果你没有主动对RDDCache/Persist,它不过是一个概念上存在的虚拟数据集,你实际上是看不到这个 ...
分类:
其他好文 时间:
2016-12-09 08:01:25
阅读次数:
139
Spark性能优化 - 开发调优优化一 避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某...
分类:
其他好文 时间:
2016-12-07 14:29:34
阅读次数:
164
Spark总结 Spark Engine RDD 弹性分布式数据集 partitons组成的,partition一定是一个具体的概念,就是一段连续的数据在某个物理节点 1,由一组partitions组成 2,应用在RDD上面的算子,会被应用到每一个partitions上面去 3,每一个RDD需要有依 ...
分类:
其他好文 时间:
2016-12-05 20:09:56
阅读次数:
272