1. HBase基本介绍 a. 介绍 Hbase是一个nosql的列式存储的数据库。实际来源于Google发表的论文bigtable。构建在hdfs基础之上。 b. Hbase的特点 2. Hbase和hadoop的关系 a. hdfs b. Hbase 总结:紧耦合关系,Hbase依赖于hdfs ...
分类:
其他好文 时间:
2019-10-14 01:39:31
阅读次数:
120
一、hive文件存储格式 Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需 ...
分类:
其他好文 时间:
2019-10-03 14:40:32
阅读次数:
87
1.关于分区 2.同一份数据多种处理 3.分桶表数据存储 4.为表增加列 5.使用列式存储表 ...
分类:
其他好文 时间:
2019-08-21 21:51:01
阅读次数:
135
1.1 NoSQL: not only sql 为什么有NOSql: 互联网项目:特点: 数据库高并发读写,海量数据高效率存储,可扩展 NOSQL主流: 键值对(redis),列式存储,文档类型,图形数据库 NoSql特点: 特点: 数据库高并发读写,海量数据高效率存储,可扩展 1.2 Redis简 ...
分类:
其他好文 时间:
2019-07-20 13:18:38
阅读次数:
93
1、执行计划(过往记忆https://www.iteblog.com/archives/2562.html) 2、逻辑计划优化方法: 谓词下推,列裁剪,常量替换,常量累加 3、优化方法 数据源方面: 1、hive 使用parquet格式,不要用textfile。列式存储便于查询引擎做块遍历、谓词下推 ...
分类:
数据库 时间:
2019-06-18 23:01:37
阅读次数:
303
【hive中的file_format】 SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多 TEXTFILE:生产中用的多,行式存储 RCFILE:生产中用的少,行列混合存储,OCR是他得升级版 ORC:生产中最常用,列式存储 PARQUET:生产中最常用,列式存储 A ...
分类:
其他好文 时间:
2019-04-21 09:17:35
阅读次数:
206
HBase简介:分布式数据库是构建在HDFS上的分布式列存储数据库(Mysql,Oracle是行数据库),是一个高可靠性,高性能,面向列。可伸缩的分布式存储系统 列式存储允许用户存储海量的数据到相同表中,而在传统数据库中,海量数据需要被切分为多个表进行存储行键 不宜过长,否则会占用大量的存储空间降低 ...
分类:
其他好文 时间:
2019-01-28 16:10:18
阅读次数:
236
kudu 1.7 官方:https://kudu.apache.org/ 一 简介 kudu有很多概念,有分布式文件系统(HDFS),有一致性算法(Zookeeper),有Table(Hive Table),有Tablet(Hive Table Partition),有列式存储(Parquet),有 ...
分类:
其他好文 时间:
2019-01-21 13:46:36
阅读次数:
110
一、kudu概念 Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。 这是一个为块数 ...
分类:
数据库 时间:
2019-01-14 00:19:03
阅读次数:
980
在介绍 HBase 是不是列式存储数据库之前,我们先来了解一下什么是行式数据库和列式数据库。 行式数据库和列式数据库 在维基百科里面,对行式数据库和列式数据库的定义为:列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理(OLAP)和即时查询。相对应的是行式数据库,数据以行相关的 ...
分类:
数据库 时间:
2019-01-11 18:05:34
阅读次数:
396