码迷,mamicode.com
首页 >  
搜索关键字:rdd    ( 1327个结果
spark-mllib 密集向量和稀疏向量
MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 。局部向量和局部矩阵是用作公共接口的最简单的数据模型。 基本的线性代数运算由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。 因此,向量和 矩阵,标记点是 spark-mllib基本的 ...
分类:其他好文   时间:2020-01-18 21:17:43    阅读次数:86
【2020/1/18】寒假自学——学习进度报告2
写博客是时隔两天,但学习并没有停止。 这一篇博客还是写一下关于Spark基础知识的,上次只是总体名词的理解。 Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务 于是RDD——由DAG图帮助形成的分布式内存的数据集帮助Spar ...
分类:其他好文   时间:2020-01-18 14:39:51    阅读次数:104
spark教程(四)-SparkContext 和 RDD 算子
SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点; 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个; 利用 SparkContext 实例创建的对象都是 RD ...
分类:其他好文   时间:2020-01-18 12:44:55    阅读次数:66
寒假学习进度-3
RDD编程初级实践 函数名 目的 示例 结果reduceByKey(f) 合并具有相同key的值 rdd.reduceByKey( ( x,y) => x+y ) { (1,2) , (3,10) }groupByKey() 对具有相同key的值分组 rdd.groupByKey() { (1,2) ...
分类:其他好文   时间:2020-01-17 22:55:25    阅读次数:91
6.Pair RDD操作
1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value,再聚合为key-values的过程。 在Spark里key-value RDD(pair RDD)同样是最常用的,在每个应用中基本都会用到。 pair RDD如何创建?不是通过sc.parallelize 创建 通常应用 ...
分类:其他好文   时间:2020-01-17 13:36:54    阅读次数:96
rdd简单操作
1.原始数据 Key value Transformations(example: ((1, 2), (3, 4), (3, 6))) 2. flatMap测试示例 执行结果: 3.distinct、reducebykey、groupbykey 4.combineByKey(create Combi ...
分类:其他好文   时间:2020-01-16 19:01:28    阅读次数:97
hello world
1.spark 架构, scala,IDE,compiler,plugin,hadoop,resourcemanager,taskscheduler,line,递归函数,memory,shuffle, dag,stage,taskset, sparksql,rdd,dataframe 二维表格,sq ...
分类:其他好文   时间:2020-01-16 14:23:34    阅读次数:118
Spark入门(四)--Spark的map、flatMap、mapToPair
spark的RDD操作 在上一节Spark经典的单词统计中,了解了几个RDD操作,包括flatMap,map,reduceByKey,以及后面简化的方案,countByValue。那么这一节将介绍更多常用的RDD操作,并且为每一种RDD我们分解来看其运作的情况。 spark的flatMap flat ...
分类:其他好文   时间:2020-01-12 10:08:52    阅读次数:87
Spark入门(三)--Spark经典的单词统计
spark经典之单词统计 准备数据 既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著《GoneWithTheWind》(《飘》)的文本来做一个数据统计,看看文章中各个单词出现频次如何。为了便于大家下载文本。可以到GitHub上下载文本以及对应的代码。我将文本放在项目的目录下。 ...
分类:其他好文   时间:2020-01-12 10:06:03    阅读次数:116
Spark入门(七)--Spark的intersection、subtract、union和distinc
Spark的intersection intersection顾名思义,他是指交叉的。当两个RDD进行intersection后,将保留两者共有的。因此对于RDD1.intersection(RDD2) 和RDD2.intersection(RDD1) 。应该是一致的。 比如对于,List1 = { ...
分类:其他好文   时间:2020-01-12 09:36:42    阅读次数:80
1327条   上一页 1 ... 21 22 23 24 25 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!