文章标题 Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine 作者介绍 Sameer Agarwal, D ...
分类:
Web程序 时间:
2018-04-08 22:43:38
阅读次数:
339
在之前的博文中,我们回顾和总结了2014年Spark在性能提升上所做的努力。本篇博文中,我们将为你介绍性能提升的下一阶段——Tungsten。在2014年,我们目睹了Spark缔造大规模排序的新世界纪录,同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungst ...
分类:
其他好文 时间:
2018-02-20 15:56:55
阅读次数:
187
1、spark sql past,present,future 介绍了spark sql的历史,Catalyst优化器的一些优化(Tungsten内部数据编码格式,Whole Stage code gengeration,Vectorized Parquent reader)。Spark SQL未来 ...
分类:
其他好文 时间:
2017-10-18 17:10:46
阅读次数:
247
https://github.com/hustnn/TungstenSecret https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html ...
分类:
其他好文 时间:
2017-04-10 19:14:56
阅读次数:
123
$ cat me.sqlset echo offset term offset line 1000 pages 0set feedback offset heading offset trimspool on spool /aiapp/tungsten/shell/o2m/test.sqlselec ...
分类:
数据库 时间:
2016-07-15 19:21:38
阅读次数:
202
Spark tungsten 项目阅读笔记 Spark tungsten 项目的宣言就是:Bringing Apache Spark closer Bare Metal。 我的理解就是不要让硬件成为Spark性能的瓶颈,无限充分利用硬件资源(CPU,内存,IO,网络)。 tungsten主要有3大动 ...
分类:
其他好文 时间:
2016-07-12 01:29:19
阅读次数:
155
头一次,参加技术沙龙哈哈哈哈哈 第一个牛人演讲概要 1.图计算 2.Tungsten 3.建议 图存储与计算机中是一个矩阵,在矩阵中标识各个定点和边的属性。 在图中求取关键路径则需要图计算,相对于hadoop的技术要快很多。主要因为图计算的每次迭代都会去掉一些信息(点和线)。hadoop则是全部在进 ...
分类:
其他好文 时间:
2016-06-18 16:43:07
阅读次数:
168
一、DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM,这样可以避免JVM GC带来的性能损失。内存中 ...
分类:
其他好文 时间:
2016-04-09 23:14:00
阅读次数:
350
tungsten-replicator 技术交流群:376068310 一 规划主机: 192.168.67.128?#mysql主机?(事先安装好,安装步骤详见?前一篇博客?)
192.168.67.129?#mongodb主机?(事先安装好,安装步骤详见?前一篇博客) ...
分类:
数据库 时间:
2015-10-30 19:07:51
阅读次数:
329
[导读] 随着公司业务的快速发展数据量也迅速的增大,基于用户各个维度深度分析,关系型数据压力越来越大;因此急于寻找一些解决方案;调研了很久最后采用了 golang+mongod集群的这个方案,使用mongo做数据分析的存储端,数据同步就成为一个问题,目前网上主流的工具和解决方案都比较少,唯一一个稍微...
分类:
数据库 时间:
2015-10-28 19:12:16
阅读次数:
1058