[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleRDD = peopleDF.map( ...
分类:
编程语言 时间:
2017-10-07 22:46:45
阅读次数:
220
submitjob::做了什么 1含有dagScheduler的runJob函数的runJob是入口,并且是堵塞的操作,即直到Spark完成Job的运行之前,rdd.doCheckpoint()是不会执行的。堵塞在3的waiter.awaitResult()操作,即submitJob会返回一个wai ...
分类:
其他好文 时间:
2017-10-07 20:38:26
阅读次数:
172
[Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子 $ hdfs dfs -cat people.json $pyspark sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("p ...
分类:
编程语言 时间:
2017-10-07 17:31:36
阅读次数:
191
repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 同:RDD的分区进行重新划分 异:repatition是coalesce一种情况,即分区增加,shuffle默 ...
分类:
其他好文 时间:
2017-10-06 10:32:58
阅读次数:
202
调优都是在场景限制之下。大部分选择并非一定。做测试来寻找瓶颈。(shuffle操作数量、RDD持久化操作数量以及gc) 开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。 (涉及代码质量(api及数据结构),参数,数据质量,考虑内存与网络而选择的模式(广播、序列化),官网建议) RDD( ...
分类:
其他好文 时间:
2017-10-06 10:28:52
阅读次数:
147
Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。 网官图中所 ...
适用场景 进行join中至少有一个RDD的数据量比较少(比如几百M,或者1-2G) 因为,每个Executor的内存中,都会驻留一份广播变量的全量数据 Broadcast与map进行join代码示例 创建RDD 传统的join 使用Broadcast+map的join操作 ...
分类:
其他好文 时间:
2017-09-30 10:10:57
阅读次数:
185
Spark Python 索引页 为了查找方便,建立此页 RDD 基本操作: [Spark][Python]groupByKey例子 ...
分类:
编程语言 时间:
2017-09-30 10:10:50
阅读次数:
96
[Spark][Python]sortByKey 例子的继续 RDD的collect() 作用是什么? “[Spark][Python]sortByKey 例子”的继续 In [20]: mydata004.collect() Out[20]: [[u'00001', u'sku933'], [u' ...
分类:
编程语言 时间:
2017-09-29 23:00:23
阅读次数:
322
parallelized,lazily transform,cache(),actions 算子 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。数据转化为Spark中的数据块,通过BlockManager进行管理。 KEY-VALUE reduceByKey(func)=>(k,v) ...
分类:
其他好文 时间:
2017-09-27 00:47:56
阅读次数:
149