【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1.1 运行环境说明1.1.1硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-81238...
分类:
数据库 时间:
2015-08-27 08:15:14
阅读次数:
471
1、RDD的缓存策略是什么?
缓存策略对应类StorageLevel,包括多种存储级别:
object
StorageLevel
{
val
NONE =
new
StorageLevel(false,
false,
false,
false)
val
DISK_ONLY =
new
StorageLevel(true,
fa...
分类:
其他好文 时间:
2015-08-27 00:36:07
阅读次数:
273
Spark之命令 1.spark运行模式有4种: a.local 多有用测试, b. standalone:spark 集群模式,使用spark自己的调度方式。 c. Yarn: 对MapreduceV1升级的经典版本,支持spark。 d.Mesos:类似Yarn的资源调度框架,提供了有效的、跨分...
分类:
其他好文 时间:
2015-08-26 23:54:32
阅读次数:
404
首先看一个spark自带的最简单的例子:
object SparkPi {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("Spark Pi")
val spark = new SparkContext(conf)
val slices = if (args.length >...
分类:
其他好文 时间:
2015-08-26 22:43:23
阅读次数:
337
安装JDK 1.7+
【下载网址】http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html环境变量设置(最好不要采用openjdk):export JAVA_HOME=/usr/java/java-1.7.0_71
export JRE_HOME=$JAVA_HOME/jre
export...
分类:
其他好文 时间:
2015-08-26 22:42:31
阅读次数:
335
1、学习Spark必须要深入理解RDD编程模型。为什么呢?
RDD是Spark抽象的基石,整个Spark的编程都是基于对RDD的操作完成的。RDD(弹性分布式数据集,Resilient Distributed Datasets),其特性是只读的、可分区、容错的的数据集合;所谓弹性,指内存不够时,可以与磁盘进行交换(Spark是基于内存的),上述是Spark快的一个原因。Spark快的另...
分类:
其他好文 时间:
2015-08-26 18:00:53
阅读次数:
368
1. windows简单java程序调用Spark,执行Scala开发的Spark程序,这里包含两种模式:
1> 提交任务到Spark集群,使用standAlone模式执行;
2> 提交任务到Yarn集群,使用yarn-client的模式;
2. windows 开发java web程序调用Spark,执行Scala开发的Spark程序,同样包含两种模式,参考1.
3. linux运行java web程序调用Spark,执行Scala开发的Spark程序,包含两种模式,参考1....
分类:
编程语言 时间:
2015-08-26 14:02:57
阅读次数:
309
Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR 中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多。它仅需从...
分类:
其他好文 时间:
2015-08-26 10:53:32
阅读次数:
149
SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生。但是,随着Spark的发展,对于野心勃勃的Spark团队来说,Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。...
分类:
数据库 时间:
2015-08-26 09:30:54
阅读次数:
416
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、SparkSQL的发展历程1.1Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运...
分类:
数据库 时间:
2015-08-26 09:26:23
阅读次数:
340