码迷,mamicode.com
首页 >  
搜索关键字:groupbykey    ( 65个结果
spark算子
transformation算子 1、map() 2、flatmap() 3、mapPartitions() 4、union() 5、groupByKey() 6、filter() 7、distinc()去重 8、subtract()集合的差操作 9、cache()从磁盘缓存到内存 10、persi ...
分类:其他好文   时间:2018-01-18 01:00:54    阅读次数:117
spark RDD 常见操作
fold 操作 区别 与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.sortByKey 8.cogroup 9.join 10.LeftOutJoin 11.RightOu... ...
分类:其他好文   时间:2018-01-16 13:58:44    阅读次数:341
Spark 学习笔记之 distinct/groupByKey/reduceByKey
distinct/groupByKey/reduceByKey: distinct: 运行结果: groupByKey: 运行结果: reduceByKey: 运行结果: groupByKey与 reduceByKey区别: reduceByKey用于对每个key对应的多个value进行merge操 ...
分类:其他好文   时间:2017-11-04 20:40:01    阅读次数:171
combineByKey
通过分析reduceByKey和groupByKey的源码,发现两个算子都使用了combineByKey这个算子,那么现在来分析一下combineByKey算子。 在combineByKey函数中包含 createCombiner、mergeValue、mergeCombiners函数 create ...
分类:其他好文   时间:2017-10-05 23:40:38    阅读次数:455
reduceByKey和groupByKey的区别
先来看一下在reduceByKey和groupByKey的源码,在PairRDDFunctions.scala文件中 /** * Merge the values for each key using an associative reduce function. This will also pe... ...
分类:其他好文   时间:2017-10-04 14:20:48    阅读次数:224
Spark Python 索引页
Spark Python 索引页 为了查找方便,建立此页 RDD 基本操作: [Spark][Python]groupByKey例子 ...
分类:编程语言   时间:2017-09-30 10:10:50    阅读次数:96
[Spark][Python]groupByKey例子
[Spark][Python]sortByKey 例子 的继续: [Spark][Python]groupByKey例子 In [29]: mydata003.collect() Out[29]: [[u'00001', u'sku933'], [u'00001', u'sku022'], [u'0 ...
分类:编程语言   时间:2017-09-30 00:28:01    阅读次数:183
解决spark中遇到的数据倾斜问题
一. 数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 二. 数据倾斜的原因 常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。 数据问题 spark使用问题 三. 数据倾斜的后果 一个理 ...
分类:其他好文   时间:2017-09-29 14:02:57    阅读次数:157
常用RDD
只作为我个人笔记,没有过多解释 Transfor map filter filter之后,依然有三个分区,第二个分区为空,但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key,只把va ...
分类:其他好文   时间:2017-08-10 23:36:42    阅读次数:314
spark的一些经验
1,如果写sql语句能实现的操作,最好就不要用dataframe了;spark会自己做优化,性能和稳定性都会比较高 2,中间过程存成parquet文件而不是HIVE表 3,能用reduceByKey就不要用groupByKey 4,在数据量很大或者存在倾斜的时候,可以考虑先repartition后在 ...
分类:其他好文   时间:2017-08-03 00:53:49    阅读次数:221
65条   上一页 1 2 3 4 5 6 7 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!