搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

spark streming updateStateByKey 用法

updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加在有新的数据信息进入或更新时，可以让用户保持想要的任何状。使用这个功能需要完成两步： 1) 定义状态：可以是任意数据类型 2) 定义状态更新函数：用一个函数指定如何使用先前的状态，从输入流中的新值更新状态。对于有状态操作，要不断的把当前和历史的时间切片的RDD累...

分类：其他好文时间：2015-08-14 21:36:08 阅读次数：269

Spark RDD Operations

以上是对应的RDD的各中操作，相对于MaoReduce只有map、reduce两种操作，Spark针对RDD的操作则比较多***********************************************map(func)返回一个新的分布式数据集，由每个原元素经过func函数转换后组成*...

分类：其他好文时间：2015-08-12 18:33:56 阅读次数：175

RDD：基于内存的集群计算容错抽象

本文转载：http://shiyanjun.cn/archives/744.html摘要本文提出了分布式内存抽象的概念——弹性分布式数据集（RDD，Resilient Distributed Datasets），它具备像MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内...

分类：其他好文时间：2015-08-09 13:52:01 阅读次数：144

Spark RDD API详解(一) Map和Reduce

原始链接：https://www.zybuluo.com/jewes/note/35032RDD是什么？A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable(不可改...

分类：Windows程序时间：2015-08-09 12:05:15 阅读次数：226

Spark RDD API详解(一) Map和Reduce

RDD是什么？ RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍S...

分类：Windows程序时间：2015-08-07 20:18:41 阅读次数：130

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、Spark...

分类：其他好文时间：2015-08-07 13:35:39 阅读次数：171

Spark学习笔记(一)

Spark知识掌握第一阶段要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等；第二阶段: 精通Spark平台本身提供给开发者API 1，掌握Spark中面向RDD的开发模式，掌握各种transformation和action函数的使用； 2，掌握Spark中的宽依赖和窄依赖以及lineage机制； 3，掌握RDD的计算流...

分类：其他好文时间：2015-08-04 17:16:17 阅读次数：140

Spark SQL and DataFrame Guide(1.4.1)——之Data Sources

Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作，也可以被注册为临时表。...

分类：数据库时间：2015-07-30 21:28:09 阅读次数：312

spark中saveAsTextFile如何最终生成一个文件

一般而言，saveAsTextFile会按照执行task的多少生成多少个文件，比如part-00000一直到part-0000n，n自然就是task的个数，亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件，而不是成百上千个文件了？答案自然是有办法。在RDD上调用coalesc...

分类：其他好文时间：2015-07-29 12:03:33 阅读次数：175

Spark SQL编程指南（Python）

前言Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD：SchemaRDD。SchemaRDD类似于传统关系型数据库的一张表，由两部分组成：Rows：数据行对象Schema：数据行模式：列名、列数据类型、列可否为空等S...

分类：数据库时间：2015-07-29 12:02:57 阅读次数：147

共1327条上一页 1 ... 118 119 120 121 122 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)