sparkEnv是spark环境变量1、可以从其中get 缓存2、为master workder driver 管理和保存运行时对象。3、excutorid ,excutor 一种为driver类型,一种具体处理task 内部有线程池的excutor4、actorSystem ,如果运行在drive...
分类:
其他好文 时间:
2015-12-29 19:09:08
阅读次数:
242
窄依赖 narrow dependencymap,filter,union ,join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD并行的,RDD分片是独立的。只依赖相同ID的分片range分片one to dependencyrange dependency内部可...
分类:
其他好文 时间:
2015-12-29 16:08:02
阅读次数:
218
1、HDFS只能读取,或者通过其他途径创建2、transfrmation是lazy的。3、传统的容错方式,数据检查点或者记录数据的更新容错是分布式最困难的部分。数据检查点:通过数据中心的网络,连接所在的机器之间,复制庞大的数据集。消耗网络和磁盘。记录数据的更新:更新的很多,则记录成本很高。4、RDD...
分类:
其他好文 时间:
2015-12-28 20:35:22
阅读次数:
141
map 通过自定义函数 f:T->u 将元数据T转换为u,不会将split进行合并flatMap通过自定义函数 f:T->u 进行数据变换,并将拆分后的小集合合并成一个大集合。mapPartitionsIter => iter.filter(_>3)作用于整个分区(例如hbase表等)进行操作glo...
分类:
移动开发 时间:
2015-12-28 20:20:12
阅读次数:
589
1、RDD 只读的分区数据集合。2、RDD的依赖关系,生成RDD的血统。3、RDD支持基于工作集的运用。可以显性的将数据存储在内存中,可以支持高效数据重用。4、RDD是分布式数据编程的一种抽象5、RDD的特征a list of partitions(hdfs的一个分片就是一个partition,每个...
分类:
其他好文 时间:
2015-12-28 20:14:57
阅读次数:
186
Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大提高处理速度,特别是复杂的迭代计算。Spark主要包括SparkSQL,SparkStreaming,Spark MLLib以及图计算。Spark核心概念简介1、RDD即弹性分布式数据集,通过RDD可以执行各.....
分类:
其他好文 时间:
2015-12-28 15:47:25
阅读次数:
245
Spark能够从任何支持Hadoop的存储源来创建RDD,包括本地的文件系统,HDFS,Cassandra,Hbase,Amazon S3等。Spark支持textFile、SequenceFiles和任何其他的Hadoop的InputFormat格式的数据。1、textfile的RDD可以通过.....
分类:
其他好文 时间:
2015-12-21 17:39:56
阅读次数:
125
Spark基于RDD近乎完美的实现了分布式内存的抽象,且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性,Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用,这极大的提高了查询的速度。
分类:
其他好文 时间:
2015-12-16 12:52:34
阅读次数:
134
SparkContext是用户程序和Spark交互的接口,它会负责连接到Spark集群,并且根据系统默认配置和用户设置来申请计算资源,完成RDD的创建等工作。
分类:
其他好文 时间:
2015-12-16 12:52:30
阅读次数:
143
RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD,该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容,并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。
分类:
其他好文 时间:
2015-12-16 12:49:12
阅读次数:
126