/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.rdd.RDDimport org.apache.spark.streaming._import org.apache.spark....
分类:
其他好文 时间:
2015-09-09 16:09:16
阅读次数:
144
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念。对于RDD的原理性的知识,可以参阅Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory C...
分类:
其他好文 时间:
2015-09-06 12:47:10
阅读次数:
169
org.apache.spark.rddRDDabstract class RDD[T] extends Serializable with LoggingA Resilient Distributed Dataset (RDD), the basic abstraction in Spark. R...
分类:
其他好文 时间:
2015-08-31 13:20:40
阅读次数:
163
SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTable注册成临时表,然后通过SQL语...
分类:
数据库 时间:
2015-08-31 10:08:08
阅读次数:
377
1 /// 定义一个函数AddNoise,参数分别为rdd,Fraction。其中rdd为(BreezeDenseMatrix, BreezeDenseMatrix)元组构成的RDD。Fraction为一个Double。返回一个(BreezeDenseMatrix, BreezeDenseMa...
分类:
其他好文 时间:
2015-08-30 22:37:58
阅读次数:
189
“RDD是由不同的partition组成的,transformation和action是在partition上面进行的;而在storage模块内部,RDD又被视为由不同的block组成,对于RDD的存取是以block为单位进行的,本质上partition和block是等价的,只是看待的角度不同。在S...
分类:
Web程序 时间:
2015-08-30 15:35:01
阅读次数:
401
1、RDD的缓存策略是什么?
缓存策略对应类StorageLevel,包括多种存储级别:
object
StorageLevel
{
val
NONE =
new
StorageLevel(false,
false,
false,
false)
val
DISK_ONLY =
new
StorageLevel(true,
fa...
分类:
其他好文 时间:
2015-08-27 00:36:07
阅读次数:
273
1、学习Spark必须要深入理解RDD编程模型。为什么呢?
RDD是Spark抽象的基石,整个Spark的编程都是基于对RDD的操作完成的。RDD(弹性分布式数据集,Resilient Distributed Datasets),其特性是只读的、可分区、容错的的数据集合;所谓弹性,指内存不够时,可以与磁盘进行交换(Spark是基于内存的),上述是Spark快的一个原因。Spark快的另...
分类:
其他好文 时间:
2015-08-26 18:00:53
阅读次数:
368
1.在IDEA上建立一个sparksql_mysql的scala对象。2.连接mysql的代码如下import java.sql.{DriverManager, PreparedStatement, Connection}import org.apache.spark.rdd.JdbcRDDimpo...
分类:
数据库 时间:
2015-08-19 10:46:20
阅读次数:
207
相信很多人在开始用Spark的时候一定会遇到 Task not serializable的问题,这种问题大多数都是在RDD的算子中调用了不能序列化的对象引起的。为什么传入算子中的对象一定要能够序列化呢?这就要从Spark本身说起,...
分类:
其他好文 时间:
2015-08-16 16:53:11
阅读次数:
124