码迷,mamicode.com
首页 >  
搜索关键字:rdd    ( 1327个结果
第15课:RDD创建内幕彻底解密
本节课主要内容:1、RDD创建的几种方式2、RDD创建实战3、RDD内幕RDD创建有很多种方式,以下几种创建RDD的方式:1、使用程序中的集合创建RDD,实际意义用于测试用;2、使用本地文件系统创建RDD,测试大量数据的文件;3、使用HDFS创建RDD,最常用的方式;4、基于DB创建RDD;5、基..
分类:其他好文   时间:2016-05-14 01:15:21    阅读次数:119
第17课:RDD案例(join、cogroup等实战)
本节课通过代码实战演示RDD中最重要的两个算子,join和cogroupjoin算子代码实战://通过代码演示join算子valconf=newSparkConf().setAppName("RDDDemo").setMaster("local")valsc=newSparkContext(conf)valarr1=Array(Tuple2(1,"Spark"),Tuple2(2,"Hadoop"),Tuple2(3,"Tachyon"..
分类:其他好文   时间:2016-05-14 01:12:13    阅读次数:493
第6课:Spark Streaming源码解读之Job动态生成和深度思考
对于每个SparkStreaming程序,我们都会设置一个batchDuration。也就是用来控制多久触发一次Streaming的job。Streamingjob的主要任务针对特定的时刻,通过RDD的模板DStream中实例化RDD,并且通过DStreamGraph中实例化出RDDDAG。然后将RDDDAG提交给集群运行。在SparkStreaming里..
分类:其他好文   时间:2016-05-13 15:27:35    阅读次数:252
Spark版本定制版3-通过案例对SparkStreaming透彻理解三板斧之三
本讲内容: a. Spark Streaming Job 架构和运行机制  b. Spark Streaming Job 容错架构和运行机制 注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。 上节回顾: 上节课谈到Spark Streaming是基于DStream编程。DStream是逻辑级别的,而RDD是物理级别的。DStre...
分类:其他好文   时间:2016-05-13 15:11:20    阅读次数:160
Sprak RDD简单应用
来自:http://my.oschina.net/scipio/blog/284957#OSC_h5_11 目录[-] 1、准备文件 2、加载文件 3、显示一行 4、函数运用 (1)map (2)collecct (3)filter (4)flatMap (5)union (6) join (7)l ...
分类:其他好文   时间:2016-05-13 07:43:30    阅读次数:235
Spark 定制版:003~Spark Streaming(三)
本讲内容:a. Spark Streaming Job 架构和运行机制 b. Spark Streaming Job 容错架构和运行机制注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾:上节课谈到Spark Streaming是基于DStream编程。DStream是逻辑级别的,而RDD是物理级别的。DStream是随着时间的流动内部将集合封装...
分类:其他好文   时间:2016-05-12 22:46:08    阅读次数:136
Spark-SparkSql
SparkSql 允许spark执行sql语句,hivesql,scala的描述的基于关系的查询。其实是封装了新的RDD-SchemaRDD,由行对象组成,有一个模式描述每列的数据类型。SchemaRDD与关系型数据库的表很相似,可以通过存在的RDD/Parquet文件/Json文件/用Hive中的数据HiveSql创建。其中相关功能入口是SQLContext()及其子类。 如HiveCon...
分类:数据库   时间:2016-05-12 19:53:55    阅读次数:240
Spark-RDD API
EnglishThe RDD API By ExampleaggregateThe aggregate function allows the user to apply two different reduce functions to the RDD. The first reduce function is applied within each partition to reduce the...
分类:Windows程序   时间:2016-05-12 15:31:26    阅读次数:907
第92讲 SparkStreming中的Transformations和状态管理
本期内容: 1.SparkStreaming中的Transforamtions 2.SparkStreaming中的状态管理 一.DStream就是一个RDD之上的一个抽象,DStream和时间结合起来就不断的触发产生RDD的实例,可以说我们对Dstream的操作就初步定义了对RDD的操作,只不过需要时间的间隔也就是internalbatch去激活这个模板,生成具体的RDD的实例和具体的jo...
分类:其他好文   时间:2016-05-12 13:10:29    阅读次数:163
Spark SQL和DataFrame的学习总结
1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequ...
分类:数据库   时间:2016-05-12 12:50:07    阅读次数:476
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!