搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子

[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleRDD = peopleDF.map( ...

分类：编程语言时间：2017-10-07 22:46:45 阅读次数：220

basic spark or spark essentials-02(notes)

submitjob：：做了什么 1含有dagScheduler的runJob函数的runJob是入口，并且是堵塞的操作,即直到Spark完成Job的运行之前,rdd.doCheckpoint()是不会执行的。堵塞在3的waiter.awaitResult()操作,即submitJob会返回一个wai ...

分类：其他好文时间：2017-10-07 20:38:26 阅读次数：172

[Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子

[Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子 $ hdfs dfs -cat people.json $pyspark sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("p ...

分类：编程语言时间：2017-10-07 17:31:36 阅读次数：191

coalesce

repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T] 同：RDD的分区进行重新划分异：repatition是coalesce一种情况，即分区增加，shuffle默 ...

分类：其他好文时间：2017-10-06 10:32:58 阅读次数：202

optimization & error -01

调优都是在场景限制之下。大部分选择并非一定。做测试来寻找瓶颈。（shuffle操作数量、RDD持久化操作数量以及gc）开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。（涉及代码质量（api及数据结构），参数，数据质量，考虑内存与网络而选择的模式（广播、序列化），官网建议） RDD（ ...

分类：其他好文时间：2017-10-06 10:28:52 阅读次数：147

Spark-Streaming之window滑动窗口应用

Spark-Streaming之window滑动窗口应用，Spark Streaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据，会被聚合起来执行计算操作，然后生成的RDD，会作为window DStream的一个RDD。网官图中所 ...

分类：Windows程序时间：2017-10-02 16:16:55 阅读次数：217

Spark-Join优化之Broadcast

适用场景进行join中至少有一个RDD的数据量比较少（比如几百M，或者1-2G) 因为，每个Executor的内存中，都会驻留一份广播变量的全量数据 Broadcast与map进行join代码示例创建RDD 传统的join 使用Broadcast+map的join操作 ...

分类：其他好文时间：2017-09-30 10:10:57 阅读次数：185

Spark Python 索引页

Spark Python 索引页为了查找方便，建立此页 RDD 基本操作： [Spark][Python]groupByKey例子 ...

分类：编程语言时间：2017-09-30 10:10:50 阅读次数：96

[Spark][python]RDD的collect 作用是什么？

[Spark][Python]sortByKey 例子的继续 RDD的collect() 作用是什么？ “[Spark][Python]sortByKey 例子”的继续 In [20]: mydata004.collect() Out[20]: [[u'00001', u'sku933'], [u' ...

分类：编程语言时间：2017-09-29 23:00:23 阅读次数：322

basic spark or spark essentials(notes)

parallelized,lazily transform,cache(),actions 算子算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。数据转化为Spark中的数据块，通过BlockManager进行管理。 KEY-VALUE reduceByKey(func)=>(k,v) ...

分类：其他好文时间：2017-09-27 00:47:56 阅读次数：149

共1327条上一页 1 ... 67 68 69 70 71 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)