码迷,mamicode.com
首页 > 其他好文 > 详细

Hive入门

时间:2020-07-13 12:07:13      阅读:73      评论:0      收藏:0      [点我收藏+]

标签:作者   集群   bsp   运行   red   apr   出版社   结构   建议   

Hive是个啥?

用类似sql语句实现对分布式存储系统的数据读写、管理功能。

HIVE特点

1.使用类sql语句分析大数据,避免MapReduce程序分析数据

2.数据存储在HDFS上,不是HIVE上

3.Hive将数据映射成数据库和一张张表,库和表的元数据信息一般存在关系型数据库。

元数据:描述数据的数据

举例:

比如一本书,书的书名、isbn号、作者、出版社、目录等信息就是一本书的元数据。

元数据的分类:

描述性元数据:描述对象的基本信息。

结构性元数据:描述对象的内部结构和关系。

管理性元数据:记录有助于管理对象的信息。

参考性元数据:描述了统计数据的内容和质量。

统计性元数据:描述收集,处理或产生统计数据过程

构造元数据:

使用“词汇表”构造语句。词汇表根据明确的行业标准构造。

元数据语法:

一般建议的方法

1.主语-谓词-对象

2.类-属性-值

hive的底层存储:

hive的数据是存储在HDFS上,hive中的库和表可以看作是对HDFS上数据的一个映射。所以hive必须运行在一个hadoop集群。

hive语句背后的执行过程:

hive中的执行器,将最终要要执行的MapReduce程序放到YARN上以一系列job进行执行。

YARN是啥?

hadoop的一个资源管理系统。

 

Hive入门

标签:作者   集群   bsp   运行   red   apr   出版社   结构   建议   

原文地址:https://www.cnblogs.com/liuguangshou123/p/13291893.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!