码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
SparkStreamingTest.scala
/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.rdd.RDDimport org.apache.spark.streaming._import org.apache.spark....
分类:其他好文   时间:2015-09-09 16:09:16    阅读次数:144
关于RDD
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念。对于RDD的原理性的知识,可以参阅Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory C...
分类:其他好文   时间:2015-09-06 12:47:10    阅读次数:169
Spark - RDD(弹性分布式数据集)
org.apache.spark.rddRDDabstract class RDD[T] extends Serializable with LoggingA Resilient Distributed Dataset (RDD), the basic abstraction in Spark. R...
分类:其他好文   时间:2015-08-31 13:20:40    阅读次数:163
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTable注册成临时表,然后通过SQL语...
分类:数据库   时间:2015-08-31 10:08:08    阅读次数:377
Scala - Spark Lambda“goesto“ => 分析
1 /// 定义一个函数AddNoise,参数分别为rdd,Fraction。其中rdd为(BreezeDenseMatrix, BreezeDenseMatrix)元组构成的RDD。Fraction为一个Double。返回一个(BreezeDenseMatrix, BreezeDenseMa...
分类:其他好文   时间:2015-08-30 22:37:58    阅读次数:189
Apache Spark-1.0.0浅析(十):数据存储——读写操作
“RDD是由不同的partition组成的,transformation和action是在partition上面进行的;而在storage模块内部,RDD又被视为由不同的block组成,对于RDD的存取是以block为单位进行的,本质上partition和block是等价的,只是看待的角度不同。在S...
分类:Web程序   时间:2015-08-30 15:35:01    阅读次数:401
Spark问题笔记3
1、RDD的缓存策略是什么?     缓存策略对应类StorageLevel,包括多种存储级别: object StorageLevel {   val NONE = new StorageLevel(false, false, false, false)   val DISK_ONLY = new StorageLevel(true, fa...
分类:其他好文   时间:2015-08-27 00:36:07    阅读次数:273
Spark问题笔记2
1、学习Spark必须要深入理解RDD编程模型。为什么呢?      RDD是Spark抽象的基石,整个Spark的编程都是基于对RDD的操作完成的。RDD(弹性分布式数据集,Resilient Distributed Datasets),其特性是只读的、可分区、容错的的数据集合;所谓弹性,指内存不够时,可以与磁盘进行交换(Spark是基于内存的),上述是Spark快的一个原因。Spark快的另...
分类:其他好文   时间:2015-08-26 18:00:53    阅读次数:368
sparksql链接mysql
1.在IDEA上建立一个sparksql_mysql的scala对象。2.连接mysql的代码如下import java.sql.{DriverManager, PreparedStatement, Connection}import org.apache.spark.rdd.JdbcRDDimpo...
分类:数据库   时间:2015-08-19 10:46:20    阅读次数:207
怎样给Spark传递函数—怎样让你的Spark应用更高效更健壮
相信很多人在开始用Spark的时候一定会遇到 Task not serializable的问题,这种问题大多数都是在RDD的算子中调用了不能序列化的对象引起的。为什么传入算子中的对象一定要能够序列化呢?这就要从Spark本身说起,...
分类:其他好文   时间:2015-08-16 16:53:11    阅读次数:124
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!