搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark Streaming

一、梗概即时处理流式数据； Spark Streaming 使用离散化流(discretized stream) DStream作为抽象表示； DStream是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为RDD存在，而DStream是由这些 RDD所组成的序列 (因此得名 ...

分类：其他好文时间：2017-07-03 10:12:00 阅读次数：229

Spark RDD

梗概： RDD 其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。而在这一切背后，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。 RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区 ...

分类：其他好文时间：2017-07-02 21:17:26 阅读次数：259

spark基本组件与概念

数据结构核心之数据集RDD 俗称为弹性分布式数据集。Resilient Distributed Datasets，意为容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。 RDD的特点它是在集群节点上的不可变的、 ...

分类：其他好文时间：2017-06-29 12:44:32 阅读次数：251

Spark 累加器实验

以下代码用Pyspark+IPython完成统计日志空行的数量：读取日志，创建RDD：myrdd=sc.textFile("access.log")不使用累加器：In[68]:s=0 In[69]:deff(x): ...:globals ...:iflen(x)==0: ...:s+=1 ...: In[70]:myrdd.foreach(f) In[71]:print(s)得出结果为：0原因是python的变量，即..

分类：其他好文时间：2017-06-21 19:50:47 阅读次数：150

spark中的广播变量broadcast

Spark中的Broadcast处理首先先来看一看broadcast的使用代码: val values = List[Int](1,2,3) val broadcastValues = sparkContext.broadcast(values) rdd.mapPartitions(iter => ...

分类：其他好文时间：2017-06-21 09:34:59 阅读次数：1523

Jmeter之Json Path Extractor 接受上一个请求的响应参数

最近在使用Jmeter进行接口测试，被一个问题困扰了很久，就是第二个请求如何接收上一个请求响应中的参数，刚开始尝试着用网上普遍说的正则表达式，长了了N多次之，都没有达到我想要的效果，被整的够惨，于是，开始尝试使用第二种方法，就是Jmeter之Json Path Extractor，感觉棒极了，在此记 ...

分类：Web程序时间：2017-06-18 00:02:23 阅读次数：359

Spark开发指南

Spark开发指南从高的层面来看，事实上每个Spark的应用，都是一个Driver类，通过执行用户定义的main函数。在集群上执行各种并发操作和计算 Spark提供的最基本的抽象，是一个弹性分布式数据集(RDD)，它是一种特殊集合。能够分布在集群的节点上。以函数式编程操作集合的方式，进行各种各样的 ...

分类：其他好文时间：2017-06-17 18:21:05 阅读次数：195

linux新增用户和删除用户

新增用户新增用户命令：useradd 参数：参数说明 -u 指定UID，也就是自定义UID -g 知道GID，也就是初始化用户组，/etc/passwd文件中的第四个字段。 -G 后面接用户组的名字，也就是指定其他用户组。给用户指定要加入的非初始化用户组。 -M 强制！不要创建用户主文件夹。（ ...

分类：系统相关时间：2017-06-17 11:13:29 阅读次数：313

spark的调优

一、持久化 1、概念一个RDD，执行多次操作，每次操作都需要计算得到这个RDD，持久化就是第一次计算的时候，把这个执行多次的RDD持久化到内存或磁盘，这个RDD就只计算一次，以后的多次操作都只需要从内存或磁盘读取这个RDD就可以了那么我们就不需要多次计算同一个RDD，从而在很多场景下，可以大幅 ...

分类：其他好文时间：2017-06-13 21:50:46 阅读次数：194

共1327条上一页 1 ... 78 79 80 81 82 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)