一、梗概 即时处理流式数据; Spark Streaming 使用 离散化流(discretized stream) DStream作为抽象表示; DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些 RDD所组成的序列 (因此 得名 ...
分类:
其他好文 时间:
2017-07-03 10:12:00
阅读次数:
229
梗概: RDD 其实就是分布式的元素集合。 在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD 以及 调用RDD 操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区 ...
分类:
其他好文 时间:
2017-07-02 21:17:26
阅读次数:
259
数据结构 核心之数据集RDD 俗称为弹性分布式数据集。Resilient Distributed Datasets,意为容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。 RDD的特点 它是在集群节点上的不可变的、 ...
分类:
其他好文 时间:
2017-06-29 12:44:32
阅读次数:
251
以下代码用Pyspark+IPython完成统计日志空行的数量:读取日志,创建RDD:myrdd=sc.textFile("access.log")不使用累加器:In[68]:s=0
In[69]:deff(x):
...:globals
...:iflen(x)==0:
...:s+=1
...:
In[70]:myrdd.foreach(f)
In[71]:print(s)得出结果为:0原因是python的变量,即..
分类:
其他好文 时间:
2017-06-21 19:50:47
阅读次数:
150
Spark中的Broadcast处理 首先先来看一看broadcast的使用代码: val values = List[Int](1,2,3) val broadcastValues = sparkContext.broadcast(values) rdd.mapPartitions(iter => ...
分类:
其他好文 时间:
2017-06-21 09:34:59
阅读次数:
1523
最近在使用Jmeter进行接口测试,被一个问题困扰了很久,就是第二个请求如何接收上一个请求响应中的参数,刚开始尝试着用网上普遍说的正则表达式,长了了N多次之,都没有达到我想要的效果,被整的够惨,于是,开始尝试使用第二种方法,就是Jmeter之Json Path Extractor,感觉棒极了,在此记 ...
分类:
Web程序 时间:
2017-06-18 00:02:23
阅读次数:
359
Spark开发指南 从高的层面来看,事实上每个Spark的应用,都是一个Driver类,通过执行用户定义的main函数。在集群上执行各种并发操作和计算 Spark提供的最基本的抽象,是一个弹性分布式数据集(RDD),它是一种特殊集合。能够分布在集群的节点上。以函数式编程操作集合的方式,进行各种各样的 ...
分类:
其他好文 时间:
2017-06-17 18:21:05
阅读次数:
195
新增用户 新增用户命令:useradd 参数: 参数 说明 -u 指定UID,也就是自定义UID -g 知道GID,也就是初始化用户组,/etc/passwd文件中的第四个字段。 -G 后面接用户组的名字,也就是指定其他用户组。给用户指定要加入的非初始化用户组。 -M 强制!不要创建用户主文件夹。( ...
分类:
系统相关 时间:
2017-06-17 11:13:29
阅读次数:
313
一、持久化 1、概念 一个RDD,执行多次操作,每次操作都需要计算得到这个RDD, 持久化就是第一次计算的时候,把这个执行多次的RDD持久化到内存或磁盘,这个RDD就只计算一次,以后的多次操作都只需要从内存或磁盘读取这个RDD就可以了 那么我们就不需要多次计算同一个RDD,从而在很多场景下,可以大幅 ...
分类:
其他好文 时间:
2017-06-13 21:50:46
阅读次数:
194