“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第10期互动问答分享】 ? Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client和Cluster模式 Client模式如下所示: Cluste...
分类:
其他好文 时间:
2014-09-04 19:35:40
阅读次数:
326
1.部署环境OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)Hadoop:Hadoop 2.4.1Hive:0.11.0JDK:1.7.0_60Python:2.6.6(spark集群需要python2.6以上,否则无法在spark集...
分类:
其他好文 时间:
2014-09-04 18:59:49
阅读次数:
267
第一步:Spark集群需要的软件; ?在1、2讲的从零起步构建好的Hadoop集群的基础上构建Spark集群,我们这里采用2014年5月30日发布的Spark 1.0.0版本,也就是Spark的最新版本,要想基于Spark 1.0.0构建Spark集群,需...
分类:
其他好文 时间:
2014-09-04 12:01:39
阅读次数:
310
spark对内存有一定的要求,内存不够会因为gc而oom。
1、默认情况下,一个worker的内存0.6用于cache,0.4用于task,可以通过设置该值提高每个worker的cache大小
spark.storage.memoryFraction 0.8
2、设置并行task数,提高reducer效率
spark.default.parallelism 4
这个在1....
分类:
其他好文 时间:
2014-09-03 21:21:47
阅读次数:
338
默认是1.0.4,需设置指定Hadoop版本:
在${SPARK_HOME}/pom.xml中的yarn改为
yarn
2
2.2.0
2.2.0
2.5.0
yarn
导入时候选yarn...
分类:
其他好文 时间:
2014-09-03 21:19:57
阅读次数:
330
一、安装环境agent:192.168.7.101hdfs:192.168.7.70(namenode)192.168.7.71(datanode)192.168.7.72(datanode)192.168.7.73(datanode)操作系统:CentOS6.3x86_64须用到的软件包:jdk-1.7.0_65-fcs.x86_64flume-ng-1.5.0flume-ng-agent-1.5.0hadoop-2.3.0+cdh5.1.0cat/etc/hosts19..
分类:
其他好文 时间:
2014-09-03 15:05:57
阅读次数:
252
scala中的所有操作符都是方法的调用,例如:1+2,等效于(1).+(2) 0 to 5,等效于(0).to(5),x(1)="scala",等效于(x).update(1,"scala"),x(1)等效于(x).apply(1) scala通过定义伴生对象,分离静态成员,类似于j...
分类:
编程语言 时间:
2014-09-03 13:24:46
阅读次数:
393
在Scala中函数和方法有什么区别 方法可以作为一个表达式的一部分出现(调用函数并传参),但是方法(带参方法)不能作为最终的表达式, 但是函数可以作为最终的表达式出现: scala> //定义一个方法scala> def m(x:Int) = 2*xm: (x: Int)Intscala> //定义...
分类:
其他好文 时间:
2014-09-03 11:04:16
阅读次数:
270
本文讲述如何使用datastax提供的spark-cassandra-connector来连接cassandra进行数据读取和更新。
分类:
其他好文 时间:
2014-09-02 22:35:15
阅读次数:
343
scala支持关联映射,如可以用(key -> value)表示一个键值对 scala中的所有类型都是对象,包括基本数据类型 scala中的case语句用来判断接收的消息,比java中的switch...case...更专注 receive{????case msg =>...
分类:
编程语言 时间:
2014-09-02 20:04:25
阅读次数:
324