Streaming Window: 上图意思:每隔2秒统计前3秒的数据 slideDuration: 2 windowDuration: 3 例子: 运行结果: ...
1. Spark 程序在运行的时候分为 Driver 和 Executor 两部分; 2. Spark 的程序编写是基于 SparkContext 的,具体来说包含两方面: a) Spark 编程的核心基础 RDD, 是由 SparkContext 来最初创建 b) Spark 程序的调度优化也是基 ...
分类:
其他好文 时间:
2017-12-15 22:33:00
阅读次数:
134
基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备。比如Hadoop的MapReduce。 缺点:1.不适合大量的迭代 2. 交互式查询 3. 不能复用曾经的结果或中间计算结果 基于工作集的处理:如Spark的RDD。RDD具有如下的弹性: 1. 自动的进行内存和磁盘数据存储 ...
分类:
其他好文 时间:
2017-12-14 04:04:55
阅读次数:
147
开发调优篇 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的 ...
分类:
其他好文 时间:
2017-12-13 20:00:01
阅读次数:
196
Spark算子:RDD基本转换操作(1)–map、flatMap、distinct 关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinct map 将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入分 ...
分类:
其他好文 时间:
2017-12-12 17:46:46
阅读次数:
144
目录 随机森林原理 随机森林代码(Spark Python) 随机森林原理 待续... 返回目录 随机森林代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1jHWKG4I 密码:acq1 返回目录 ...
分类:
编程语言 时间:
2017-12-12 17:35:25
阅读次数:
208
==Spark的发展介绍== ==一个大一统的软件栈== Spark核心 行动操作 RDD Spark传递函数 常见的转化操作 ...
分类:
其他好文 时间:
2017-12-11 22:18:51
阅读次数:
200
package java2; public class CPU { int speed; public int getSpeed() { return speed; } public void setSpeed(int speed) { this.speed = speed; }} package ...
分类:
其他好文 时间:
2017-12-07 22:47:26
阅读次数:
273
#构造case class,利用反射机制隐式转换 scala> import spark.implicits._ scala> val rdd= sc.textFile("input/textdata.txt") scala> case class Person(id:Int,name:String... ...
分类:
其他好文 时间:
2017-12-07 12:00:09
阅读次数:
378
In the world of Dota2, there are two parties: the Radiant and the Dire. The Dota2 senate consists of senators coming from two parties. Now the senate ...
分类:
其他好文 时间:
2017-11-29 21:01:19
阅读次数:
148