hive 索引

时间：2014-09-02 15:55:54 阅读：173 评论：0 收藏：0 [点我收藏+]

标签：hive

一、Hive的索引

索引是标准的数据库技术，hive 0.7版本之后支持索引。Hive提供有限的索引功能，这不像传统的关系型数据库那样有“键(key)”的概念，用户可以在某些列上创建索引来加速某些操作，给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚，提供的选项还较少。但是，索引被设计为可使用内置的可插拔的java代码来定制，用户可以扩展这个功能来满足自己的需求。当然不是说有的查询都会受惠于Hive索引。用户可以使用EXPLAIN语法来分析HiveQL语句是否可以使用索引来提升用户查询的性能。像RDBMS中的索引一样，需要评估索引创建的是否合理，毕竟，索引需要更多的磁盘空间，并且创建维护索引也会有一定的代价。用户必须要权衡从索引得到的好处和代价。

索引的建立

先创建hive表

hive> create table user( id int, namestring)

   > ROW FORMAT DELIMITED

   > FIELDS TERMINATED BY ‘\t‘

> STORED AS TEXTFILE;

导入数据

hive> load data local inpath ‘/usr/local/trl/row.txt‘

   > overwrite into table user;

Select*from use---------------------------à耗时10秒

对user建立索引

hive> create index user_index on tableuser(id)

   > as ‘org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler‘

   > with deferred rebuild

   > IN TABLE user_index_table;

hive> alter index user_index on userrebuild;

hive> select * from user_index_table;

耗时9s这和没有创建索引的效果差不多

1. order by会对查询结果集做一次全局的排序，也就是说所有的数据都传给一个reduce来处理对于大数据集来说，这个过程可能很慢

2. sort by只会在每一个reduce中进行排序，这样只保证每个reduce的输出数据是有序的（并非全局排序），这样可以提高后面全局排序的效率。

3.union all 用于多表合并的场景，要求各表select出的字段类型必须完全匹配

用于多表不同字段的结果表进行合并操作

hive不支持顶层union，只能union封装在子查询中，而且必须有别名

4.hive索引

索引key冗余存储，提供基于key的数据视图

存储设计优化查询和检索性能

对某些查询减少IO

hive 索引

标签：hive

原文地址：http://blog.csdn.net/manburen01/article/details/39006509

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行