DescribeDescribe DatabaseDescribe Table/View/ColumnDisplay Column StatisticsDescribe PartitionDescribe DatabaseVersion informationIconAs of Hive 0.7.D...
分类:
其他好文 时间:
2015-01-24 22:34:56
阅读次数:
519
1、 什么是Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
2、 Hive的工作流程图
3、 使用场...
分类:
其他好文 时间:
2015-01-24 15:55:45
阅读次数:
209
Hive文件格式
1、 TextFile
默认文件格式
数据不做压缩,磁盘开销大,数据解析开销大,可以结合Gzip、Bzip2使用(系统自动检测,执行查询时自动解压)
数据不会被Hive切分,所以无法对数据进行并行操作
创建命令:
2、 SequenceFile
是Hadoop API提供的一种二进制文件支持
使用方便、可分割、可压缩的特点
支持三种压缩方式...
分类:
其他好文 时间:
2015-01-24 15:53:06
阅读次数:
183
Hive架构
1、 用户接口
a) CLI (Command Line Interface) 命令行
在hive的bin目录下面执行./hive
b) Client 客户端
启动命令为 nohup hive –service hiveserver & (nohup … &是Linux的命令,表示该命令在后台...
分类:
其他好文 时间:
2015-01-24 15:53:06
阅读次数:
232
1、 下载
查看支持你Hadoop版本的Hive版本,下载地址:http://archive.apache.org/dist/hive/
解压:tar –zxvf hive-0.13.1.tar.gz
2、 编辑环境变量
vim /etc/profile
3、 修改配置文件
Hive的元数据存储支持Mysql和自带的Derby,我们设置为Mysql
编辑hive-s...
分类:
其他好文 时间:
2015-01-24 15:52:55
阅读次数:
106
Hive压缩之二 小文件合并
调研背景
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并。当然,在我们向一个表写数据时,也需要注意输出文件大小。
输入合并
合并输入小文...
分类:
其他好文 时间:
2015-01-24 13:11:58
阅读次数:
163
Querying and Inserting DataSimple QueryPartition Based QueryJoinsAggregationsMulti Table/File InsertsDynamic-Partition InsertInserting into Local File...
分类:
其他好文 时间:
2015-01-23 18:13:09
阅读次数:
298
数据类型Type SystemHive supports primitive and complex data types, as described below. SeeHive Data Typesfor additional information.Hive支持原生和复杂数据类型。Primit...
分类:
其他好文 时间:
2015-01-23 13:15:36
阅读次数:
232
Data UnitsIn the order of granularity - Hive data is organized into:Databases: Namespaces that separate tables and other data units from naming confli...
分类:
其他好文 时间:
2015-01-23 12:50:24
阅读次数:
174
说到Hive就一定要说到写程序的时候怎么调用Hive。以下我通过一个例子说明如果通过java来调用hive查询数据...
分类:
编程语言 时间:
2015-01-23 00:56:02
阅读次数:
331