Spark 优化
· 数据序列化
· 内存优化
o 确定内存使用
o 调整数据结构
o 序列化的RDD存储
o 垃圾回收调整
· 其它注意事项
o 并行粒度
o Reduce任务内存使用
o 广播大的变量
o 数据本地性
· 总结
基于内存的计算(当然也可以用磁盘)是Spark的一个重...
分类:
其他好文 时间:
2015-02-10 13:31:11
阅读次数:
204
转载引用自:http://www.cnblogs.com/tovin/p/3833985.html最近在使用spark开发过程中发现当数据量很大时,如果cache数据将消耗很多的内存。为了减少内存的消耗,测试了一下Kryo serialization的使用代码包含三个类,KryoTest、MyReg...
分类:
编程语言 时间:
2015-01-17 12:34:27
阅读次数:
415
该项目分析了目前主流分布式通讯相关开源产品中使用的No Schema序列化产品Kryo,Fastjson,Hessian的序列化机制,通过构造相对比较复杂的数据model,针对序列化size,序列化时间进行了细致测试。通过测试报告可以清晰的看出Kryo无疑是大赢家,无论是序列化大小,还是速度上都更胜一筹,这也就不难理解为什么Spark,Storm等流计算框架会选它作为序列化工具。另外,可以看出这三款软件在BitSet,EnumSet等特殊类型的序列化上还有不少问题,作者也给Kryo,Fastjson社区提了...
分类:
其他好文 时间:
2015-01-07 18:49:57
阅读次数:
151
当当网近日开源了Dubbox项目,可为Dubbo服务框架提供多项扩展功能,包括REST风格远程调用、Kryo/FST序列化等等。当当网架构部和技术委员会架构师沈理向InfoQ中文站介绍了Dubbox项目,开发背景和主要特点描述如下:Dubbo是一个被国内很多互联网公司广泛使用的开源分布式服务框架,即...
分类:
其他好文 时间:
2014-12-22 14:16:35
阅读次数:
221