码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
spark streming updateStateByKey 用法
updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加 在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步: 1) 定义状态:可以是任意数据类型 2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。 对于有状态操作,要不断的把当前和历史的时间切片的RDD累...
分类:其他好文   时间:2015-08-14 21:36:08    阅读次数:269
Spark RDD Operations
以上是对应的RDD的各中操作,相对于MaoReduce只有map、reduce两种操作,Spark针对RDD的操作则比较多***********************************************map(func)返回一个新的分布式数据集,由每个原元素经过func函数转换后组成*...
分类:其他好文   时间:2015-08-12 18:33:56    阅读次数:175
RDD:基于内存的集群计算容错抽象
本文转载:http://shiyanjun.cn/archives/744.html摘要本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内...
分类:其他好文   时间:2015-08-09 13:52:01    阅读次数:144
Spark RDD API详解(一) Map和Reduce
原始链接:https://www.zybuluo.com/jewes/note/35032RDD是什么?A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable(不可改...
分类:Windows程序   时间:2015-08-09 12:05:15    阅读次数:226
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S...
分类:Windows程序   时间:2015-08-07 20:18:41    阅读次数:130
Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、Spark...
分类:其他好文   时间:2015-08-07 13:35:39    阅读次数:171
Spark学习笔记(一)
Spark知识掌握 第一阶段 要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等; 第二阶段:  精通Spark平台本身提供给开发者API 1,掌握Spark中面向RDD的开发模式,掌握各种transformation和action函数的使用; 2,掌握Spark中的宽依赖和窄依赖以及lineage机制; 3,掌握RDD的计算流...
分类:其他好文   时间:2015-08-04 17:16:17    阅读次数:140
Spark SQL and DataFrame Guide(1.4.1)——之Data Sources
Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表。...
分类:数据库   时间:2015-07-30 21:28:09    阅读次数:312
spark中saveAsTextFile如何最终生成一个文件
一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是task的个数,亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件,而不是成百上千个文件了?答案自然是有办法。 在RDD上调用coalesc...
分类:其他好文   时间:2015-07-29 12:03:33    阅读次数:175
Spark SQL编程指南(Python)
前言Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。SchemaRDD类似于传统关系型数据库的一张表,由两部分组成:Rows:数据行对象Schema:数据行模式:列名、列数据类型、列可否为空等S...
分类:数据库   时间:2015-07-29 12:02:57    阅读次数:147
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!