几种保存Hive查询结果的方法

时间：2019-05-14 11:25:54 阅读：457 评论：0 收藏：0 [点我收藏+]

标签：mapreduce cal ado user fetch csdn ted tor 系统

可以根据导出的地方不一样，将这些方式分为三种：
1.导出到本地文件系统；
2.导出到HDFS中；
3.导出到Hive的另一个表中

一、保存结果到本地

方法1：调用hive标准输出，将查询结果写到指定的文件中

这个方法最为常见,sql的查询结果将直接保存到/tmp/out.txt中
$ hive -e "select user, login_timestamp from user_login" > /tmp/out.txt

当sql脚本过多时，也可以使用 -f  sql文件名 ，按下面的方式执行查询，并保存结果
$ hive -f file.sql > /tmp/out.txt

下面是file.sql的内容：
$ cat file.sql
select user, login_timestamp from user_login

方法2：使用INSERT OVERWRITE LOCAL DIRECTORY结果到本地

hive> insert overwrite local directory "/tmp/out/"                                        
    > select user, login_time from user_login;

这条HQL的执行需要启用Mapreduce完成，运行完这条语句之后，将会在本地文件系统的/tmp/out/目录下生成文件，这个文件是Reduce产生的结果（这里生成的文件名是000000_0）

我们也可以在导出时指定字段分割符:

hive> insert overwrite local directory "/tmp/out/"
    > row format delimited fields terminated by "\t" 
    > select user, login_time from user_login;

注意：和导入数据到Hive不一样，不能用insert into来将数据导出。

二、保存结果到hdfs

保存查询结果到hdfs很简单，使用INSERT OVERWRITE DIRECTORY就可以完成操作

hive> insert overwrite directory "/tmp/out/"
    > row format delimited fields terminated by "\t" 
    > select user, login_time from user_login;

需要注意的是，跟保存到本地文件系统的差别是，保存到hdfs时命令不需要指定LOCAL项

三、保存结果到HIVE表

方法1、已经建好结果表，使用INSERT OVERWRITE TABLE以覆盖方式写入结果表,要确保表字段一致

hive> insert overwrite table query_result     
    > select user, login_time from user_login

HIVE也提供了追加方式INSERT TABLE，可以在原有数据后面加上新的查询结果。

hive> insert into table query_result
    > select * from query_result;

方法2、如果需要新建一个表，用于存放查询结果，可以使用CREATE TABLE AS SELECT语法

hive> create table query_result 
    > as
    > select user, login_time from user_login;

四、使用hdfs命令导出文件

Hive是构建在hdfs上的，因此，我们可以使用hdfs的命令hadoop dfs -get直接导出表。
首先、我们先找到要导出的表存放到哪个目录下：

hive> show create table t_tag_dm_rk;
OK
CREATE TABLE `t_tag_dm_rk`(
  `id` string COMMENT ';.', 
  `uuid` string COMMENT '?X?', 
  `tag_value` string COMMENT '~<', 
  `tag_value_type` string COMMENT '~<{?')
PARTITIONED BY ( 
  `fq_day` string COMMENT ':??', 
  `tag_code` string COMMENT '~?')
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ( 
  'field.delim'=',', 
  'serialization.format'=',') 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://chinaol/apps/hive/warehouse/chinaoly_prod.db/t_tag_dm_rk'
TBLPROPERTIES (
  'transient_lastDdlTime'='1557742726')
Time taken: 0.377 seconds, Fetched: 21 row(s)

可以看到，表存放到在hdfs://chinaol/apps/hive/warehouse/chinaoly_prod.db/t_tag_dm_rk。
接下来，直接利用hadoop dfs -get导出到本地：

hdfs dfs -get hdfs://chinaoly/apps/hive/warehouse/chinaoly_prod.db/t_tag_dm_rk  /home/dev/wangx

Reference:
https://blog.csdn.net/zhuce1986/article/details/39586189
https://www.iteblog.com/archives/955.html

几种保存Hive查询结果的方法

标签：mapreduce cal ado user fetch csdn ted tor 系统

原文地址：https://www.cnblogs.com/fstimers/p/10858854.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行