RDD操作 RDD操作 1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作 map() {1,2,3} 2.对数据分别为{1,2,3}和{3,4,5}的RDD进行针对两个RDD的转化操作 3.对一个数据为{1,2,3,3}的RDD进行基本的RDD行动操作 rdd.aggregate( ...
分类:
其他好文 时间:
2017-03-13 10:15:10
阅读次数:
260
Spark性能调优之代码方面的优化 1.避免创建重复的RDD 对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 <!--more--> 3.对多次使用的RDD进行持久化(cache,persist,checkpoint) 如何选择一种最合适的持久化策略? 默认MEM ...
分类:
其他好文 时间:
2017-03-12 15:22:00
阅读次数:
177
1.规律 如果JoinAPI之前被调用的RDD API是宽依赖(存在shuffle), 而且两个join的RDD的分区数量一致,join结果的rdd分区数量也一样,这个时候join api是窄依赖 除此之外的,rdd 的join api是宽依赖 2.测试程序 ...
分类:
其他好文 时间:
2017-03-09 22:56:29
阅读次数:
899
1.数据集 A表数据: 1 a 2 b 3 c B表数据: 1 aa1 1 aa2 2 bb1 2 bb2 2 bb3 4 dd1 2.join的分类 inner join left outer join right outer join full outer join left semi join ...
分类:
Windows程序 时间:
2017-03-09 22:47:15
阅读次数:
1633
RDD是spark抽象的基石,可以说整个spark编程就是对RDD进行的操作 RDD是弹性的分布式数据集,它是只读的,可分区的,这个数据集的全部或者部分数据可以缓存在内存中,在多次计算间重用。所谓的弹性意思是:内存不够时可以与磁盘进行交换。这是RDD另一个特性:内存计算。就是将数据保存到内存中,同时 ...
分类:
其他好文 时间:
2017-03-06 23:36:16
阅读次数:
259
Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 ...
分类:
其他好文 时间:
2017-03-06 13:56:21
阅读次数:
315
1.StackOverflowError 问题:简单代码记录 : for (day <- days){ rdd = rdd.union(sc.textFile(/path/to/day) .... ) } ...
分类:
其他好文 时间:
2017-03-06 13:31:00
阅读次数:
2864
sparkR在spark2.0里面,RDD后端代码位于org.apache.spark.rdd中,R语言相关的位于org.apache.spark.api.r中。 从入口开始,./bin/sparkR里面只有四句话,调用的是这个 spark-submit里面是个一句话的shell脚本 好了,入口是o ...
分类:
其他好文 时间:
2017-03-02 16:30:12
阅读次数:
209
转自:http://www.cnblogs.com/zhangpengme/archive/2011/12/29/2305963.html 用法:parted [选项]... [设备 [命令 [参数]...]...] 将带有“参数”的命令应用于“设备”。如果没有给出“命令”,则以交互模式运行. 帮助 ...
分类:
其他好文 时间:
2017-02-21 11:47:54
阅读次数:
216