码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
用类描述计算机中CPU的速度和硬盘的容量。(Java)
PC.java CPU.java HardDisk.java Test.java 运行结果: ...
分类:编程语言   时间:2018-10-15 20:37:51    阅读次数:834
4.4 变换及动作
变换 map //abstract class RDD filter flatMap mapPartitions mapPartitionsWithIndex sample union intersection distinct groupByKey //class PairRDDFunctions ...
分类:其他好文   时间:2018-10-14 23:07:19    阅读次数:159
6、task,线程和executor间的关系
测试 结果 ...
分类:编程语言   时间:2018-10-13 22:49:53    阅读次数:167
掌握Spark机器学习库-02-mllib数据格式
MLlib 1.MLlib介绍 1)MLlib特点 2)哪些算法 3)阅读官方文档 MLlib提供了哪些: 算法 特征工程 管道 持久化 2.MLlib数据格式 1)本地向量 2)标签数据 3)本地矩阵 4)分布式矩阵 5)分布式数据集:RDD,DATASET,DATAFRAME ...
分类:其他好文   时间:2018-10-13 19:58:07    阅读次数:128
kafka系列 -- 多线程消费者实现
看了一个星期的kafka,然后写了消费Kafka数据的代码。 感觉自己还是很不合格。 1. 不能随心所欲地操作数据,数据结构没学好,spark的RDD操作没学好。 2. 不能很好地组织代码结构,设计模式没学好,面向对象思想理解不够。 消费程序特点: 1. 用队列来存储要消费的数据。 2. 用队列来存 ...
分类:编程语言   时间:2018-10-13 02:35:47    阅读次数:187
Spark 核心组件
0. 说明 1. RDD 轻量级,虚的(轻量级数据集合,没有实际数据) 2. 依赖 RDD 的依赖是 子 RDD 上的每个分区和父 RDD 分区数量上的对应关系 Dependency | ShuffleDependency (宽依赖) | NarrowDependency (窄依赖:子 RDD 的每 ...
分类:其他好文   时间:2018-10-12 23:49:56    阅读次数:196
4、2 核心组件
1、Stage:虚的 并行的task集合,同一Stage的所有任务有着相同的Shuffle依赖。 阶段的划分按照shuffle标记来进行的。 一个阶段含多个RDD,先有RDD后有Stage 一个阶段含多个task stage通过ShuffleDependency划分,一个stage都是NarrowD... ...
分类:其他好文   时间:2018-10-11 01:46:43    阅读次数:140
(2)pyspark建立RDD以及读取文件成dataframe
1、启动spark 2、建立RDD: 3、从text中读取,read.text 4、从csv中读取:read.csv 5、从json中读取:read.json 7、RDD与Dataframe的转换 (1)dataframe转换成rdd: 法一:datardd = dataDataframe.rdd ...
分类:其他好文   时间:2018-10-09 13:29:00    阅读次数:1860
Spark中map与flatMap
map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: map将每一条输入执行func操作并对应返回一个对象,形成一个新的rdd,如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1 ...
分类:其他好文   时间:2018-10-06 15:35:36    阅读次数:144
【spark】dataframe常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 ...
分类:其他好文   时间:2018-09-30 20:01:05    阅读次数:377
1327条   上一页 1 ... 46 47 48 49 50 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!