码迷,mamicode.com
首页 >  
搜索关键字:spark streaming jobscheduler    ( 7564个结果
Spark 硬件配置
存储系统Spark任务需要从一些外部的存储系统加载数据(如:HDFS 或者 HBase),重要的是存储系统要接近Spark系统,我们有如下推荐:(1)如果可能,运行Spark在相同的HDFS节点,最简单的方法是建立一个引发相同的节点上的集群独立模式(http://spark.apache.org/d...
分类:其他好文   时间:2015-01-11 21:33:17    阅读次数:389
Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?
在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每个record都会直接写入磁盘。一直到1.2.0,Shuffle的数据是一定会写入本地文件系统的,那么对于性能要求非常苛刻的用户,如何获得更好的性能呢?...
分类:其他好文   时间:2015-01-11 16:18:22    阅读次数:149
去除Hadoop-Streaming行末多余的TAB
单位有一组业务一直都是使用Streaming压缩文本日志,大体上就是设置作业输出为BZ2格式,怎么输入就怎么输出,没有任何处理功能在里面。但是每行结尾都多出来一个TAB。终于,有一个业务需要使用TAB前的最后一个字段,不去掉不行了。虽然是个小问题,但是网上搜了一圈,也没有很..
分类:其他好文   时间:2015-01-11 06:19:41    阅读次数:261
Spark on Yarn
最近从Hadoop 1.x 转到Hadoop 2.x 同时将一些java 程序转为Scala的程序将平台上的代码减少了很多,在实施的过程中,开到一些Spark相关的YARN的部署上都是基于之前的Hadoop 1.x的部分方式,在Hadoop2.2 +版本之上 基本上就不用这么部署了。其原因就是Had...
分类:其他好文   时间:2015-01-10 01:03:07    阅读次数:237
PostgreSQL数据库Streaming Replication流复制主备延迟测试
PostgreSQL数据库流复制主库和备库之间的延迟时间是多少,无论对HA还是负载均衡来说都应该做个评估。比如单纯的HA架构,当主库发生故障时,我们允许多少时间内的数据丢失。不废话,直接进入本次实验测试。 测试环...
分类:数据库   时间:2015-01-09 19:39:36    阅读次数:269
SparkSQL简易入门
SparkSQL操作文本文件val sqlContext = new org.apache.spark.sql.SQLContext(sc)import sqlContext._case class PageViews(track_time: String, url: String, session...
分类:数据库   时间:2015-01-09 10:29:50    阅读次数:732
Spark-Sql On YARN自动调整Executor数配置
最新的Spark 1.2版本支持为Spark On YARN模式的Spark Application根据Task自动调整Executor数,要启用该功能,需做以下操作: 一: 在所有的NodeManager中,修改yarn-site.xml,为yarn.nodemanager.aux-services...
分类:数据库   时间:2015-01-09 00:22:12    阅读次数:1652
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)...
分类:Web程序   时间:2015-01-08 20:15:02    阅读次数:192
Spark JdbcRDD 简单使用
package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/...
分类:数据库   时间:2015-01-08 19:50:57    阅读次数:637
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!