存储系统Spark任务需要从一些外部的存储系统加载数据(如:HDFS 或者 HBase),重要的是存储系统要接近Spark系统,我们有如下推荐:(1)如果可能,运行Spark在相同的HDFS节点,最简单的方法是建立一个引发相同的节点上的集群独立模式(http://spark.apache.org/d...
分类:
其他好文 时间:
2015-01-11 21:33:17
阅读次数:
389
在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每个record都会直接写入磁盘。一直到1.2.0,Shuffle的数据是一定会写入本地文件系统的,那么对于性能要求非常苛刻的用户,如何获得更好的性能呢?...
分类:
其他好文 时间:
2015-01-11 16:18:22
阅读次数:
149
单位有一组业务一直都是使用Streaming压缩文本日志,大体上就是设置作业输出为BZ2格式,怎么输入就怎么输出,没有任何处理功能在里面。但是每行结尾都多出来一个TAB。终于,有一个业务需要使用TAB前的最后一个字段,不去掉不行了。虽然是个小问题,但是网上搜了一圈,也没有很..
分类:
其他好文 时间:
2015-01-11 06:19:41
阅读次数:
261
最近从Hadoop 1.x 转到Hadoop 2.x 同时将一些java 程序转为Scala的程序将平台上的代码减少了很多,在实施的过程中,开到一些Spark相关的YARN的部署上都是基于之前的Hadoop 1.x的部分方式,在Hadoop2.2 +版本之上 基本上就不用这么部署了。其原因就是Had...
分类:
其他好文 时间:
2015-01-10 01:03:07
阅读次数:
237
PostgreSQL数据库流复制主库和备库之间的延迟时间是多少,无论对HA还是负载均衡来说都应该做个评估。比如单纯的HA架构,当主库发生故障时,我们允许多少时间内的数据丢失。不废话,直接进入本次实验测试。 测试环...
分类:
数据库 时间:
2015-01-09 19:39:36
阅读次数:
269
SparkSQL操作文本文件val sqlContext = new org.apache.spark.sql.SQLContext(sc)import sqlContext._case class PageViews(track_time: String, url: String, session...
分类:
数据库 时间:
2015-01-09 10:29:50
阅读次数:
732
最新的Spark 1.2版本支持为Spark On YARN模式的Spark Application根据Task自动调整Executor数,要启用该功能,需做以下操作: 一: 在所有的NodeManager中,修改yarn-site.xml,为yarn.nodemanager.aux-services...
分类:
数据库 时间:
2015-01-09 00:22:12
阅读次数:
1652
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)...
分类:
Web程序 时间:
2015-01-08 20:15:02
阅读次数:
192
package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/...
分类:
数据库 时间:
2015-01-08 19:50:57
阅读次数:
637