transformation算子 1、map() 2、flatmap() 3、mapPartitions() 4、union() 5、groupByKey() 6、filter() 7、distinc()去重 8、subtract()集合的差操作 9、cache()从磁盘缓存到内存 10、persi ...
分类:
其他好文 时间:
2018-01-18 01:00:54
阅读次数:
117
fold 操作 区别 与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.sortByKey 8.cogroup 9.join 10.LeftOutJoin 11.RightOu... ...
分类:
其他好文 时间:
2018-01-16 13:58:44
阅读次数:
341
distinct/groupByKey/reduceByKey: distinct: 运行结果: groupByKey: 运行结果: reduceByKey: 运行结果: groupByKey与 reduceByKey区别: reduceByKey用于对每个key对应的多个value进行merge操 ...
分类:
其他好文 时间:
2017-11-04 20:40:01
阅读次数:
171
通过分析reduceByKey和groupByKey的源码,发现两个算子都使用了combineByKey这个算子,那么现在来分析一下combineByKey算子。 在combineByKey函数中包含 createCombiner、mergeValue、mergeCombiners函数 create ...
分类:
其他好文 时间:
2017-10-05 23:40:38
阅读次数:
455
先来看一下在reduceByKey和groupByKey的源码,在PairRDDFunctions.scala文件中 /** * Merge the values for each key using an associative reduce function. This will also pe... ...
分类:
其他好文 时间:
2017-10-04 14:20:48
阅读次数:
224
Spark Python 索引页 为了查找方便,建立此页 RDD 基本操作: [Spark][Python]groupByKey例子 ...
分类:
编程语言 时间:
2017-09-30 10:10:50
阅读次数:
96
[Spark][Python]sortByKey 例子 的继续: [Spark][Python]groupByKey例子 In [29]: mydata003.collect() Out[29]: [[u'00001', u'sku933'], [u'00001', u'sku022'], [u'0 ...
分类:
编程语言 时间:
2017-09-30 00:28:01
阅读次数:
183
一. 数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 二. 数据倾斜的原因 常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。 数据问题 spark使用问题 三. 数据倾斜的后果 一个理 ...
分类:
其他好文 时间:
2017-09-29 14:02:57
阅读次数:
157
只作为我个人笔记,没有过多解释 Transfor map filter filter之后,依然有三个分区,第二个分区为空,但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key,只把va ...
分类:
其他好文 时间:
2017-08-10 23:36:42
阅读次数:
314
1,如果写sql语句能实现的操作,最好就不要用dataframe了;spark会自己做优化,性能和稳定性都会比较高 2,中间过程存成parquet文件而不是HIVE表 3,能用reduceByKey就不要用groupByKey 4,在数据量很大或者存在倾斜的时候,可以考虑先repartition后在 ...
分类:
其他好文 时间:
2017-08-03 00:53:49
阅读次数:
221