一、分桶及抽样查询 1、分桶表创建 hive (db_test)> create table stu_buck(id int,name string) > clustered by(id) > into 4 buckets > row format delimited fields terminat ...
分类:
其他好文 时间:
2019-10-03 14:47:39
阅读次数:
70
一、hive文件存储格式 Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需 ...
分类:
其他好文 时间:
2019-10-03 14:40:32
阅读次数:
87
1. Hive是什么 1.1 hive的概念 Hive:由Facebook开源,用于解决海量(结构化日志)的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将Hive SQL转化成MapReduce程序 1.2 Hive ...
分类:
其他好文 时间:
2019-10-03 10:44:59
阅读次数:
112
Hive 主流文件存储格式对比 1、存储文件的压缩比测试 创建表,存储数据格式为TextFile 创建表,存储数据格式为TextFile 向表中加载数据 向表中加载数据 查看表的数据量大小 查看表的数据量大小 创建表,存储数据格式为 parquet 创建表,存储数据格式为 parquet 向表中加载 ...
分类:
其他好文 时间:
2019-10-03 10:39:51
阅读次数:
96
1. 基本查询 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 SQL ...
分类:
其他好文 时间:
2019-10-03 10:37:03
阅读次数:
63
1. hive表的数据压缩 1.1 数据的压缩说明 压缩模式评价 可使用以下三种标准对压缩方式进行评价 1、压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2、压缩时间:越快越好 3、已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化 压 ...
分类:
其他好文 时间:
2019-10-03 10:32:25
阅读次数:
89
1. Hive的分区表 1.1 hive的分区表的概念 1.2 hive分区表的构建 创建一个分区字段的分区表 创建一个分区字段的分区表 创建二级分区表 创建二级分区表 2、Hive修改表结构 2.1 修改表的名称 2.2 表的结构信息 2.3 增加/修改/替换列信息 增加列 增加列 修改列 修改列 ...
分类:
其他好文 时间:
2019-10-03 10:18:38
阅读次数:
113
一、常用数据结构: 1. list http://www.cplusplus.com/reference/list/list/ https://www.geeksforgeeks.org/list-cpp-stl/ 表示双向链表;单向链表用forward_list; 可以在常数时间复杂度内进行插入和 ...
分类:
编程语言 时间:
2019-10-02 16:34:46
阅读次数:
76
设计模式的目的是为了提高代码的整洁性、降低代码的资源占用量。可分为以下三种:创建型设计模式、结构性设计模式、行为设计模式。 ...
分类:
编程语言 时间:
2019-10-02 01:02:38
阅读次数:
116
HDP(Hortonworks Data Platform)是hortworks推出的100%开源的hadoop发行版本,以YARN 作为其架构中心,包含pig、hive、phoniex、hbase、storm、spark等大量组件,在最新的2.4版本,监控UI实现与grafana集成,包含组件版本 ...
分类:
其他好文 时间:
2019-10-02 00:52:57
阅读次数:
138