需要的软件包:Spark1.0.2Scala2.10.4一、安装ScalaRpm–ivhscala-2.10.4.rpm#安装scalaScala–version#检查刚刚安装的scala版本Scalacoderunnerversion2.10.4--Copyright2002-2013,LAMP/EPFL[hadoop@hadoop2~]$scala#进入scala命令行交互模式做简单运算看下运行结果:至此,sc..
分类:
其他好文 时间:
2014-09-05 16:29:12
阅读次数:
199
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第10期互动问答分享】Q1:Spark on Yarn的运行方式是什么?Spark on Yarn的运行方式有两种:Client和Cluster模 Client模式如下所示: ...
分类:
其他好文 时间:
2014-09-05 14:15:31
阅读次数:
177
背景
前段时间在为内部自研的计算框架设计算子层,参考对比了一些开源的计算框架的算子层,本文做一个粗粒度的梳理。
下面这张图是我对计算框架抽象层次的一个拆分,具体可以参考上周日杭州Spark meetup上我做的Spark SQL分享 slides。...
分类:
其他好文 时间:
2014-09-05 10:07:32
阅读次数:
157
openfire是一个即时通讯服务器,也称之为即时通讯平台。它是基于XMPP协议的,大家所熟悉的通讯软件QQ、MSN和Gtalk等等,其中Gtalk就是基于XMPP协议的实现。
在即时通讯中往往因为需要保存一些状态或者数据所以不能采用点对点通讯,而是需要搭建服务器来转发。
下载地址:http://www.igniterealtime.org/downloads/index.jsp
下载完...
分类:
其他好文 时间:
2014-09-05 10:04:11
阅读次数:
193
spark on yarn提交任务时一直显示ACCEPTED,过一个小时后就会出现任务失败,但在提交时shell终端显示的日志并没有报错,logs文件夹中也没有日志产生。注:spark?on?yarn是不需要启动spark集群的,只需要在提交任...
分类:
其他好文 时间:
2014-09-04 19:36:00
阅读次数:
562
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第10期互动问答分享】 ? Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client和Cluster模式 Client模式如下所示: Cluste...
分类:
其他好文 时间:
2014-09-04 19:35:40
阅读次数:
326
1.部署环境OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)Hadoop:Hadoop 2.4.1Hive:0.11.0JDK:1.7.0_60Python:2.6.6(spark集群需要python2.6以上,否则无法在spark集...
分类:
其他好文 时间:
2014-09-04 18:59:49
阅读次数:
267
第一步:Spark集群需要的软件; ?在1、2讲的从零起步构建好的Hadoop集群的基础上构建Spark集群,我们这里采用2014年5月30日发布的Spark 1.0.0版本,也就是Spark的最新版本,要想基于Spark 1.0.0构建Spark集群,需...
分类:
其他好文 时间:
2014-09-04 12:01:39
阅读次数:
310
spark对内存有一定的要求,内存不够会因为gc而oom。
1、默认情况下,一个worker的内存0.6用于cache,0.4用于task,可以通过设置该值提高每个worker的cache大小
spark.storage.memoryFraction 0.8
2、设置并行task数,提高reducer效率
spark.default.parallelism 4
这个在1....
分类:
其他好文 时间:
2014-09-03 21:21:47
阅读次数:
338
默认是1.0.4,需设置指定Hadoop版本:
在${SPARK_HOME}/pom.xml中的yarn改为
yarn
2
2.2.0
2.2.0
2.5.0
yarn
导入时候选yarn...
分类:
其他好文 时间:
2014-09-03 21:19:57
阅读次数:
330