1.用户接口:Client CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive) 2.元数据:Metastore 元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等; ...
分类:
其他好文 时间:
2019-11-20 21:53:13
阅读次数:
78
由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但 ...
分类:
数据库 时间:
2019-11-20 21:30:21
阅读次数:
100
RANK() 排序相同时会重复,总数不会变DENSE_RANK() 排序相同时会重复,总数会减少ROW_NUMBER() 会根据顺序计算 《小小的案例》 1)数据准备:#vi score.txt孙悟空 语文 87孙悟空 数学 95孙悟空 英语 68大海 语文 94大海 数学 56大海 英语 84宋宋 ...
分类:
其他好文 时间:
2019-11-20 21:19:40
阅读次数:
100
Hive的文件存储格式: textFile textFile为默认格式 存储方式:行存储 缺点:磁盘开销大;数据解析开销大;压缩的text文件,hive无法进行合并和拆分 sequencefile 二进制文件,以<key,value>的形式序列化到文件中 存储方式:行存储 优点:可分割、压缩,一般选 ...
分类:
其他好文 时间:
2019-11-20 15:23:52
阅读次数:
51
一、原集群操作: 1、hdfs创建目录hdfs dfs -mkdir /tmp/hive-export 2、hive导出表命令hive -e "use 库;show tables" | awk '{printf "use 库;export table %s to @/tmp/hive-export/ ...
分类:
其他好文 时间:
2019-11-19 15:46:28
阅读次数:
380
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 19888:j ...
分类:
其他好文 时间:
2019-11-18 20:10:58
阅读次数:
79
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|S ...
分类:
其他好文 时间:
2019-11-18 18:42:00
阅读次数:
109
环境介绍 | tuge1 | tuge2 | tuge3 | tuge4 | | | : | | | | NameNode | NameNode | DataNode | DataNode | | ZooKeeper | ZooKeeper | ZooKeeper | ZooKeeper | | | ...
分类:
其他好文 时间:
2019-11-18 18:31:53
阅读次数:
80
下载: yum -y install gcc gcc-c++ maven下载地址Github:https://github.com/hortonworks/hive-testbench/git clone https://github.com/hortonworks/hive-testbench/ ...
分类:
其他好文 时间:
2019-11-18 13:19:59
阅读次数:
433
下面是hive基本练习,持续补充中。 简述Hive工作原理 hive是基于hadoop,可以管理hdfs上的数据的工具,它本质上是执行MapReduce程序,只是使用了类sql语句更加方便开发,hive驱动器会将类sql语句转换成MapReduce的task来执行,因此执行速度会比较慢。 hive的 ...
分类:
其他好文 时间:
2019-11-17 20:43:37
阅读次数:
82