码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark闭包与序列化
在Spark的官方文档再三强调那些将要作用到RDD上的操作,都会被分发到各个worker节点上去执行,我们都知道,这些操作实际上就是一些函数和涉及的变量组成的闭包,这里显然涉及到一个容易被忽视的问题:闭包的“序列化”。显然,闭包是有状态的,这主要是指它牵涉到的那些自由变量以及自由变量的依赖到的其他变量,所以,在将一个简单的函数或者一段简短的操作(就是闭包)传递给类似RDD.map等函数时,Spark...
分类:其他好文   时间:2016-03-21 12:27:57    阅读次数:806
[Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量
比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点,能定义在计算函数内的方法就定义在里面。...
分类:其他好文   时间:2016-03-20 08:09:56    阅读次数:661
Spark作业执行
Spark中一个action触发一个job的执行,在job提交过程中主要涉及Driver和Executor两个节点。 Driver主要解决 1. RDD 依赖性分析,生成DAG。 2. 根据RDD DAG将job分割为多个Stage。 3. Stage一经确认,即生成相应的Task,将生成的Task
分类:其他好文   时间:2016-03-16 18:56:31    阅读次数:144
大数据技能图谱
下面是 StuQ 发布的大数据技能图谱,比较实用,供参考   大数据处理框架 Spark - RDD - Spark SQL - Spark Streaming - MLLibHadoop - HDFS (分布式文件系统) - Mapreduce(计算框架) - Yarn(资源管理平台) - Pig
分类:其他好文   时间:2016-03-14 09:28:47    阅读次数:173
在spark中遇到了奇怪的错误,找到了奇怪的解决方法
这两天一直在写spark程序,遇到了一个奇怪的问题。 问题简单描述如下,有两个RDD,设为rdd_a,rdd_b,当将这两个rdd合并的时候,spark会在运行中卡死。 解决方式也是奇葩。 只要在合并这两个rdd之前,分别执行rdd_a.count(),rdd_b.count(),程序就又能够愉快的
分类:其他好文   时间:2016-03-11 01:14:10    阅读次数:198
1.1RDD解读(二)
(6)transformation 操作,通过外在的不同RDD表现形式来达到内部数据的处理过程。这类操作并不会触发作业的执行,也常被称为lazy操作。 大部分操作会生成并返回一个新的RDD,例sortByKey就不会产生一个新的RDD。 1) map函数,一行数据经过map函数处理后还是一行数据 /...
分类:其他好文   时间:2016-03-10 23:45:16    阅读次数:468
Spark RDD 多文件输入
1.将多个文本文件读入一个RDD中 SparkConf conf=new SparkConf() .setMaster("local") .setAppName("save"); JavaSparkContext sc=new JavaSparkContext(conf); JavaRDD<Stri
分类:其他好文   时间:2016-03-10 20:16:00    阅读次数:1598
1.1RDD解读
1.RDD(Resilient Distributed DataSet)是Spark生态系统中最基本的抽象,代表不可变的、可并行操作的分区元素集合。RDD这个类有RDD系列所有基本的操作,比如map、filter、persist.另外,org.apache.spark.rdd.PairRDDFunc
分类:其他好文   时间:2016-03-10 00:07:31    阅读次数:233
spark的runJob函数2
上一篇我们讲到了spark的runJob方法提交job运行,runJob在提交时,需要RDD和一个函数,那么运行机制是什么呢?函数如何运行的呢?首先job被提交后,需要切分stage,然后每个stage会划分成一组task提交executor运行。如何切分stage和task,需要另写一篇来解读。那
分类:其他好文   时间:2016-03-08 02:08:47    阅读次数:236
Spark源码分析之-scheduler模块
RDD的依赖关系和Stage的分类 在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,而这个状态有可能是从前一状态转换而来的,因此换句话说这一个RDD有可能与之前的RDD(s)有依赖关系。根据依赖关系的不同,可以将RDD分成两种不同的类型:Narrow Dependency和Wide
分类:其他好文   时间:2016-03-04 22:25:21    阅读次数:188
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!