hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。
弹性分布式数据集(RDD)获得方式:1
并行化驱动程序内的集合; 2
从外部数据集加载。
1 并行化驱动程序内的集合code demo
val d...
分类:
其他好文 时间:
2014-11-20 12:05:17
阅读次数:
296
从控制台可以看到我们的程序成功在集群上运行:Detailforstage1:DetailforStage0:查看一下Executors的信息:上述信息表明程序成功在Spark集群上运行。第四步:基于IDEA构建Spark开发环境1,下载IDEA13.1.4社区版本“CommunityEditionF...
分类:
其他好文 时间:
2014-11-20 11:35:36
阅读次数:
159
1. 初始化 1.1 array()枚举成员 $products?=?array(‘Tires‘,?‘Oil‘,?‘Spark?Plugs‘);
$prices?=?array(‘Tires‘?=>?12,?‘Oil‘?=>?7.5,?‘Spark?Plugs‘?=>?32); 1.2 range()生成 ???? range(st...
分类:
编程语言 时间:
2014-11-19 22:26:43
阅读次数:
258
[Spark@Master hadoop]$ sbin/start-dfs.sh14/11/19 18:07:49 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using ...
分类:
其他好文 时间:
2014-11-19 20:12:24
阅读次数:
365
方式一: hadoop命令导出hadoop fs -get hdfs://hadoop000:8020/data/page_views2 pv2方式二:通过insert...directory导出 【spark暂不支持】导出到本地:INSERT OVERWRITE LOCAL directory.....
分类:
其他好文 时间:
2014-11-19 18:12:24
阅读次数:
181
第三步:测试Spark集群 把Spark安装包下的”README.txt”上传到 通过hdfs的web控制台可以发现成功上传了文件: 使用“MASTER:spark://SparkMaster:7077?./spark-shell”命令启动Spark?shell: 接下来通过以下命...
分类:
其他好文 时间:
2014-11-19 14:21:03
阅读次数:
211
第三步:测试Spark集群把Spark安装包下的”README.txt”上传到通过hdfs的web控制台可以发现成功上传了文件:使用“MASTER:spark://SparkMaster:7077./spark-shell”命令启动Sparkshell:接下来通过以下命令读取刚刚上传到HDFS上的“...
分类:
其他好文 时间:
2014-11-19 14:08:57
阅读次数:
220
1. expect安装Expect是基于Tcl语言的一种脚本语言,其实无论是交互还是非交互的应用场合,Expect都可以大显身手,但是对于交互式的特定场合,还非Except莫属。第1步:使用root用户登录 第2步:下载安装文件expect-5.43.0.tar.gz 和 tcl8.4.11-src...
分类:
其他好文 时间:
2014-11-19 12:34:07
阅读次数:
290
为了支持hbase0.98.6,需要重新编译spark1. 下载spark 1.1.0源代码,以及scala-2.10.4的bin包。将环境变量 SCALA_HOME 设置为scala-2.10.4 的目录位置。2. 下载较新的pom.xml (https://github.com/tedyu/sp...
分类:
其他好文 时间:
2014-11-19 12:16:35
阅读次数:
481
此时我们进入了Spark的shell世界,根据输出的提示信息,我们可以通过“http://SparkMaster:4040”?从Web的角度看一下SparkUI的情况,如下图所示: 当然,你也可以查看一些其它的信息,例如Environment: ? 同时,...
分类:
其他好文 时间:
2014-11-19 02:24:01
阅读次数:
265