1:什么是Spark的RDD??? 2:RDD的属性: 3:创建RDD: 4:RDD编程API: 4.1:Transformation: RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结 ...
分类:
其他好文 时间:
2018-02-23 20:43:22
阅读次数:
389
本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDDs,或者调用RDDs上的操作来计算结果。在底层,Spark自动将数据中包含的数据分发到你 ...
分类:
其他好文 时间:
2018-02-22 21:35:41
阅读次数:
208
注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 环境搭建步骤 将spark-2.1.1-bin-hadoop2.x版本至c盘下即可 将spark中的jar包全部提取出来另外放到一地方用于进行开发 新建ID ...
这个操作的作用依据同样的key的全部的value存储到一个集合中的一个玩意. def groupByKey(): RDD[(K, Iterable[V])] = self.withScope { groupByKey(defaultPartitioner(self))} 在做groupByKey的操 ...
分类:
其他好文 时间:
2018-02-11 14:34:37
阅读次数:
186
一、前述 今天分享一篇SparkStreaming常用的算子transform和updateStateByKey。 可以通过transform算子,对Dstream做RDD到RDD的任意操作。其实就是DStream的类型转换。 为SparkStreaming中每一个Key维护一份state状态,通过 ...
分类:
其他好文 时间:
2018-02-09 17:28:42
阅读次数:
235
wx.setClipboardData({ data: that.data.url, //复制的内容 success(){ //成功之后的回调 }) } }) ...
分类:
其他好文 时间:
2018-02-07 14:39:06
阅读次数:
137
一、前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。 累机器相当于统筹大变量,常用于计数,统计。 二、具体原理 1、广播变量 广播变量理解图 注意事项 1、能不能将一个RDD使用广播变量广播出去? 不能,因为RD ...
分类:
其他好文 时间:
2018-02-07 00:36:47
阅读次数:
200
PART 5 数据读取与保存 1.文件格式与文件系统: Spark支持的一些常见文件格式: 1.1文本文件: 读取:文本文件的读取通过textFile(),如果需要读取整个文件夹,可以使用wholeTextFiles(),该方法会返回一个pair RDD,键为文件名 保存:saveAsTextFil ...
分类:
其他好文 时间:
2018-02-05 21:58:51
阅读次数:
231
Spark的核心RDD (Resilient Distributed Datasets弹性分布式数据集) 原文链接:http://www.cnblogs.com/yjd_hycf_space/p/7681585.html 铺垫 主角 首先我们来思考一个问题吧:Spark的计算模型是如何做到并行的呢? ...
分类:
其他好文 时间:
2018-02-02 20:07:55
阅读次数:
157