一、cstore_fdw的简介 https://github.com/citusdata/cstore_fdw,此外部表扩展是由citusdata公司开发,使用orc_file格式对数据进行列式存储。 优点1:因为有压缩,所以在disk上的存储大大减少,压缩比能达到2-4倍 优点2:数据内部分块存储 ...
分类:
其他好文 时间:
2016-12-05 11:42:10
阅读次数:
217
分布式系统实践 1. 列存储格式Parquet调研报告 http://dwz.cn/4HnU24 摘要: Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、D ...
分类:
其他好文 时间:
2016-12-04 09:40:28
阅读次数:
149
海量数据存储 推荐用 Parquet列式存储 替代 HDFS上的文件 下面两篇文章讲解 用Parquet列式存储来存储数据,主要是提高查询性能、和存储压缩 《Spark SQL下的Parquet使用最佳实践和代码实战》http://blog.csdn.net/sundujing/article/de ...
分类:
数据库 时间:
2016-11-24 18:35:49
阅读次数:
250
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 Hadoop生态系统有很 ...
分类:
其他好文 时间:
2016-08-31 18:29:43
阅读次数:
435
查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟。除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略。 (1)内存列式存储与内存缓存表 Spark SQL 可以通过 cacheTable 将数据存储转换为列式存储,同时将 ...
分类:
数据库 时间:
2016-08-01 12:15:17
阅读次数:
601
最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-basedStorage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念。1为什么要按列存储列式存储(Columnarorcolumn-based)是相对于传统关系型数据库的行式存储(Row-ba..
分类:
其他好文 时间:
2016-07-13 23:45:31
阅读次数:
549
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析...
分类:
其他好文 时间:
2016-07-10 18:54:37
阅读次数:
650
内存列式存储(IM column store)(此特性在12cr1(12.1.0.2)版本后开始可用)是系统全局区中一个可选的部分,表中的数据是以列的形式而不是行的形式存储在内存里面的,如下图所示.在针对某列作查询的应用场景中,列式存储能极大地提升语句的执行速度. IM的列存储在SGA中一个新的静态 ...
分类:
其他好文 时间:
2016-06-19 17:02:41
阅读次数:
864
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,那么这里就总结下Parquet数据结构到底是什么样的呢? 一个Parquet文件是由一个header以及一个或多个block块组成,以一个fo ...
分类:
其他好文 时间:
2016-06-06 23:44:57
阅读次数:
207