码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleRDD = peopleDF.map( ...
分类:编程语言   时间:2017-10-07 22:46:45    阅读次数:220
basic spark or spark essentials-02(notes)
submitjob::做了什么 1含有dagScheduler的runJob函数的runJob是入口,并且是堵塞的操作,即直到Spark完成Job的运行之前,rdd.doCheckpoint()是不会执行的。堵塞在3的waiter.awaitResult()操作,即submitJob会返回一个wai ...
分类:其他好文   时间:2017-10-07 20:38:26    阅读次数:172
[Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子
[Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子 $ hdfs dfs -cat people.json $pyspark sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("p ...
分类:编程语言   时间:2017-10-07 17:31:36    阅读次数:191
coalesce
repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 同:RDD的分区进行重新划分 异:repatition是coalesce一种情况,即分区增加,shuffle默 ...
分类:其他好文   时间:2017-10-06 10:32:58    阅读次数:202
optimization & error -01
调优都是在场景限制之下。大部分选择并非一定。做测试来寻找瓶颈。(shuffle操作数量、RDD持久化操作数量以及gc) 开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。 (涉及代码质量(api及数据结构),参数,数据质量,考虑内存与网络而选择的模式(广播、序列化),官网建议) RDD( ...
分类:其他好文   时间:2017-10-06 10:28:52    阅读次数:147
Spark-Streaming之window滑动窗口应用
Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。 网官图中所 ...
分类:Windows程序   时间:2017-10-02 16:16:55    阅读次数:217
Spark-Join优化之Broadcast
适用场景 进行join中至少有一个RDD的数据量比较少(比如几百M,或者1-2G) 因为,每个Executor的内存中,都会驻留一份广播变量的全量数据 Broadcast与map进行join代码示例 创建RDD 传统的join 使用Broadcast+map的join操作 ...
分类:其他好文   时间:2017-09-30 10:10:57    阅读次数:185
Spark Python 索引页
Spark Python 索引页 为了查找方便,建立此页 RDD 基本操作: [Spark][Python]groupByKey例子 ...
分类:编程语言   时间:2017-09-30 10:10:50    阅读次数:96
[Spark][python]RDD的collect 作用是什么?
[Spark][Python]sortByKey 例子的继续 RDD的collect() 作用是什么? “[Spark][Python]sortByKey 例子”的继续 In [20]: mydata004.collect() Out[20]: [[u'00001', u'sku933'], [u' ...
分类:编程语言   时间:2017-09-29 23:00:23    阅读次数:322
basic spark or spark essentials(notes)
parallelized,lazily transform,cache(),actions 算子 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。数据转化为Spark中的数据块,通过BlockManager进行管理。 KEY-VALUE reduceByKey(func)=>(k,v) ...
分类:其他好文   时间:2017-09-27 00:47:56    阅读次数:149
1327条   上一页 1 ... 67 68 69 70 71 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!