码迷,mamicode.com
首页 > 其他好文 > 详细

pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用

时间:2021-04-29 12:20:10      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:map   park   highlight   for   group   mamicode   技术   key   update   

reduceByKey、groupByKey

rdd=sc. parallelize([("one",1),("two",1),("one",1),("one1",1)])
rdd. reduceByKey(lambda x,y:x). count()
rdd1=sc. parallelize([("a",{"a":12}),("b",{"a1":45}),("a",{"a2":45})])
def fun(x):
    k,v=x
    d=dict()
    for i in v:d. update(i)
    return k,d
rdd1.groupByKey().map(lambda x:fun(x)).collect()
#[(‘a‘, {‘a‘: 12, ‘a2‘: 45}), (‘b‘, {‘a1‘: 45})]

技术图片

groupBy、keyBy

rdd2=sc. parallelize([("a",{"a":13}),("b",{"a1":45}),("a",{"a2":45})])
def fun1(x):
    k,v=x
    d=dict()
    for i in v:d. update(i[1])
    return k,d
rdd2.groupBy(lambda x:x[0]).map(lambda x:fun1(x)). collect()
#[(a, {a: 13, a2: 45}), (b, {a1: 45})]
rdd2.keyBy(lambda x:x[0]).collect()
#[(a, (a, {a: 13})), (b, (b, {a1: 45})), (a, (a, {a2: 45}))]

技术图片

 

 subtractByKey

x=sc. parallelize([("a",1),("b",4),("b",5),("a",2)])
y=sc. parallelize([("a",3),("c",None)])
x. subtractByKey(y). collect()
#[(‘b‘, 4), (‘b‘, 5)]

技术图片

 

pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用

标签:map   park   highlight   for   group   mamicode   技术   key   update   

原文地址:https://www.cnblogs.com/boye169/p/14716265.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!