码迷,mamicode.com
首页 >  
搜索关键字:spark sort-based shuffle内幕彻底解密    ( 7004个结果
Spark-Sql On YARN自动调整Executor数配置
最新的Spark 1.2版本支持为Spark On YARN模式的Spark Application根据Task自动调整Executor数,要启用该功能,需做以下操作: 一: 在所有的NodeManager中,修改yarn-site.xml,为yarn.nodemanager.aux-services...
分类:数据库   时间:2015-01-09 00:22:12    阅读次数:1652
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)...
分类:Web程序   时间:2015-01-08 20:15:02    阅读次数:192
Spark JdbcRDD 简单使用
package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/...
分类:数据库   时间:2015-01-08 19:50:57    阅读次数:637
spark 安装部署
spark 安装和部署...
分类:其他好文   时间:2015-01-08 11:20:13    阅读次数:215
Spark技术内幕:Spark Pluggable框架详解,你怎么开发自己的Shuffle Service?
通过Hash Based Shuffle和Sort Based Shuffle的源码,可以得出使用Spark Pluggable框架开发一个第三方的Shuffle Service是比较容易的;这个容易是指功能实现方面。但是这个实现必须要考虑超大规模数据场景下的性能问题,资源消耗问题。...
分类:其他好文   时间:2015-01-08 08:19:06    阅读次数:273
Spark 启动历史任务记录进程,报错 Logging directory must be specified解决
Spark 启动历史任务记录进程,报错 Logging directory must be specified解决...
分类:系统相关   时间:2015-01-07 22:09:54    阅读次数:260
jvm serializer 功能&性能基准测试
该项目分析了目前主流分布式通讯相关开源产品中使用的No Schema序列化产品Kryo,Fastjson,Hessian的序列化机制,通过构造相对比较复杂的数据model,针对序列化size,序列化时间进行了细致测试。通过测试报告可以清晰的看出Kryo无疑是大赢家,无论是序列化大小,还是速度上都更胜一筹,这也就不难理解为什么Spark,Storm等流计算框架会选它作为序列化工具。另外,可以看出这三款软件在BitSet,EnumSet等特殊类型的序列化上还有不少问题,作者也给Kryo,Fastjson社区提了...
分类:其他好文   时间:2015-01-07 18:49:57    阅读次数:151
Sqoop2环境搭建
正在准备做Spark SQL external data source与关系型数据库交互的部分,参考下Sqoop2是如何操作关系型数据库的。下载地址:http://archive.cloudera.com/cdh5/cdh/5/下载并安装:cd /home/spark/app/wget http:/...
分类:其他好文   时间:2015-01-07 18:19:09    阅读次数:373
spark sql学习
英文学习篇 http://spark.apache.org/docs/latest/sql-programming-guide.html 可以对照官方的API进行对照 http://spark.apache.org/docs/latest/api/scala/index.html 中文学习篇 http://demo.netfoucs.com/boo...
分类:数据库   时间:2015-01-07 15:14:36    阅读次数:155
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!