码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
博文目录
为了方便大家阅读,我把博文目录梳理了一下,里面会有已完成和计划写的博文,希望大家多多交流,有错误的地方请随时指正^_^ Spark基础(5月中旬写完) 【原】Learning Spark (Python版) 学习笔记(一) RDD 基本概念与命令 【原】Learning Spark (Python版 ...
分类:其他好文   时间:2016-05-09 09:44:13    阅读次数:160
第14课:Spark RDD解密
以下为SparkRDD解密课程学习心得:在介绍SparkRDD之前,先简单的说下HadoopMapReduce,它是基于数据流的方式进行计算,从物理存储上加载数据,然后操作数据,最后写入到物理存储设备上,这样的模式会产生大量的中间结果。MapReduce不适合场景:1.不适合大量迭代计算场景,2.交..
分类:其他好文   时间:2016-05-08 12:11:18    阅读次数:137
Spark之RDD持久化、广播、累加器
RDD持久化、广播、累加器实质上分别涉及了RDD的数据如何保存,RDD在构建高效算法的时候涉及了persist或者checkpoint,以及广播和累加器,通过spark-shell可以试验一些小功能,spark-shell本身是spark的发行包推出的一个程序,通过这个程序可以直接写代码,spark-shell会把代码..
分类:其他好文   时间:2016-05-08 12:09:39    阅读次数:1173
RDD中的转换和action(二)PairRDD操作
package RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by legotime on 2016/5/5. */ object pairRDD { def myfunc1(index: Int, iter: Iterator[(String)]) : Iterator[String] =...
分类:其他好文   时间:2016-05-07 11:30:22    阅读次数:872
spark源码阅读笔记RDD(七) RDD的创建、读取和保存
Spark支持很多输入和输入源,同时还支持内建RDD。Spark本身是基于Hadoop的生态圈,它可以通过 Hadoop MapReduce所使用的InpoutFormat和OutputFormat接口访问数据。而且大部分的文件格式和存储系统 (HDFS,Hbase,S3等)都支持这种接口。Spark常见的数据源如下: (1) 文件格式和文件系统,也就是我们经常用的TXT,JSON,CSV等...
分类:其他好文   时间:2016-05-07 11:28:59    阅读次数:492
spark中的Broadcast variables和Accumulator
举个例子: val factor = 3 rdd.map( num => num*factor)以上两行代码显示了rdd的一个map操作,其中factor是一个外部变量。默认情况下,算子的函数内,如果使用到了外部变量,那么会将这个变量拷贝到执行这个函数的每一个task中。如果该变量非常大的话,那么网络传输耗费的资源会特别大,而且在每个节点上占用的内存空间也特别大。 Spark提供的Broadc...
分类:其他好文   时间:2016-05-07 09:08:54    阅读次数:144
通过案例对SparkStreaming透彻理解三板之二
1.解密Spark Streaming运行机制 2.解密Spark Streaming架构 I.Spark Core是基于RDD形成的,RDD之间都会有依赖关系,Spark Streaming在RDD上的时间维度,DStream就是在RDD的基础之上加上了时间维度。DStream就是RDD的模板,随着时间的流逝不断地实例化DStream,以数据进行填充DStream Graph,静态的...
分类:其他好文   时间:2016-05-07 09:05:46    阅读次数:135
实战解析Spark运行原理和RDD解密
1.实战解析Spark运行原理 交互式查询(shell,sql) 批处理(机器学习,图计算) 首先,spark是基于内存的分布式高效计算框架,采用一栈式管理机制,同时支持流处理,实时交互式出,批处理三种方式,Spark特别支持迭代式计算,因此,他对机器学习,图计算具有较强的支持,为此他提供了机器学习和图计算接口。 (1)分布式:Distributed Computation 分布式多台机器...
分类:其他好文   时间:2016-05-07 08:02:27    阅读次数:137
SparkContext源码阅读
SparkContext是spark的入口,通过它来连接集群、创建RDD、广播变量等等。 ...
分类:其他好文   时间:2016-05-06 23:27:24    阅读次数:312
Spark RDD类源码学习(未完)
每天进步一点点~开搞~ ...
分类:其他好文   时间:2016-05-06 21:58:41    阅读次数:240
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!