为了方便大家阅读,我把博文目录梳理了一下,里面会有已完成和计划写的博文,希望大家多多交流,有错误的地方请随时指正^_^ Spark基础(5月中旬写完) 【原】Learning Spark (Python版) 学习笔记(一) RDD 基本概念与命令 【原】Learning Spark (Python版 ...
分类:
其他好文 时间:
2016-05-09 09:44:13
阅读次数:
160
以下为SparkRDD解密课程学习心得:在介绍SparkRDD之前,先简单的说下HadoopMapReduce,它是基于数据流的方式进行计算,从物理存储上加载数据,然后操作数据,最后写入到物理存储设备上,这样的模式会产生大量的中间结果。MapReduce不适合场景:1.不适合大量迭代计算场景,2.交..
分类:
其他好文 时间:
2016-05-08 12:11:18
阅读次数:
137
RDD持久化、广播、累加器实质上分别涉及了RDD的数据如何保存,RDD在构建高效算法的时候涉及了persist或者checkpoint,以及广播和累加器,通过spark-shell可以试验一些小功能,spark-shell本身是spark的发行包推出的一个程序,通过这个程序可以直接写代码,spark-shell会把代码..
分类:
其他好文 时间:
2016-05-08 12:09:39
阅读次数:
1173
package RDD
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by legotime on 2016/5/5.
*/
object pairRDD {
def myfunc1(index: Int, iter: Iterator[(String)]) : Iterator[String] =...
分类:
其他好文 时间:
2016-05-07 11:30:22
阅读次数:
872
Spark支持很多输入和输入源,同时还支持内建RDD。Spark本身是基于Hadoop的生态圈,它可以通过
Hadoop MapReduce所使用的InpoutFormat和OutputFormat接口访问数据。而且大部分的文件格式和存储系统
(HDFS,Hbase,S3等)都支持这种接口。Spark常见的数据源如下:
(1) 文件格式和文件系统,也就是我们经常用的TXT,JSON,CSV等...
分类:
其他好文 时间:
2016-05-07 11:28:59
阅读次数:
492
举个例子:
val factor = 3
rdd.map( num => num*factor)以上两行代码显示了rdd的一个map操作,其中factor是一个外部变量。默认情况下,算子的函数内,如果使用到了外部变量,那么会将这个变量拷贝到执行这个函数的每一个task中。如果该变量非常大的话,那么网络传输耗费的资源会特别大,而且在每个节点上占用的内存空间也特别大。
Spark提供的Broadc...
分类:
其他好文 时间:
2016-05-07 09:08:54
阅读次数:
144
1.解密Spark Streaming运行机制
2.解密Spark Streaming架构
I.Spark Core是基于RDD形成的,RDD之间都会有依赖关系,Spark
Streaming在RDD上的时间维度,DStream就是在RDD的基础之上加上了时间维度。DStream就是RDD的模板,随着时间的流逝不断地实例化DStream,以数据进行填充DStream
Graph,静态的...
分类:
其他好文 时间:
2016-05-07 09:05:46
阅读次数:
135
1.实战解析Spark运行原理
交互式查询(shell,sql)
批处理(机器学习,图计算)
首先,spark是基于内存的分布式高效计算框架,采用一栈式管理机制,同时支持流处理,实时交互式出,批处理三种方式,Spark特别支持迭代式计算,因此,他对机器学习,图计算具有较强的支持,为此他提供了机器学习和图计算接口。
(1)分布式:Distributed Computation
分布式多台机器...
分类:
其他好文 时间:
2016-05-07 08:02:27
阅读次数:
137
SparkContext是spark的入口,通过它来连接集群、创建RDD、广播变量等等。 ...
分类:
其他好文 时间:
2016-05-06 23:27:24
阅读次数:
312