在公司用Hive实现个规则的时候,遇到了要查询某个字段是否在另一张表中,大概情况就是 A表: | id | value1 | value2 | | | : | | | 1 | 100 | 0 | | 2 | 101 | 1 | | 3 | 102 | 1 | B表: | value1 | | | | ...
分类:
其他好文 时间:
2020-01-27 18:55:28
阅读次数:
433
一、Hive的概述 1、Hive的定义 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL进行数据读取、写入和管理。 2、Hive的架构图 hive的各个组成部分介绍: 用户接口:包括 CLI、JDBC/ODBC、WebGUI。 元数据存储:通常是 ...
分类:
其他好文 时间:
2020-01-27 12:31:16
阅读次数:
82
1. 下载安装 1.1 这里选择安装的是3.1.2,使用下面命令进行下载: 1 # cd ~/software 2 wget http://mirror.bit.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz 1.2 解压重命名 ...
分类:
其他好文 时间:
2020-01-27 10:54:20
阅读次数:
97
今天主要学习了对spark的初步认识以及相应名词的理解 包括Spark特点、 Scala特性、BDAS架构、Spark组件的应用场景、Spark基本概念、Spark运行架构、 Spark架构设计的优点 、Spark各种概念之间的相互关系 Hadoop 是基于磁盘的大数据计算框架 Spark是基于内存 ...
分类:
其他好文 时间:
2020-01-26 22:32:22
阅读次数:
95
调度系统: 1. oozie: 和hadoop、hive、spark有很强的版本依赖 ...
分类:
其他好文 时间:
2020-01-26 22:31:20
阅读次数:
91
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User Defined Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User Defined Aggregation Funcation),用户自定义聚合函数,类似在g ...
分类:
数据库 时间:
2020-01-26 19:21:32
阅读次数:
86
概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数据仓库的 ...
分类:
数据库 时间:
2020-01-26 19:19:05
阅读次数:
102
一. 基本数据类型 对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。 二. 集合数据类型 练习: 1)新建一个文本存储数据 2)建表并把数据加载进去 3)查看表的内容 三 ...
分类:
其他好文 时间:
2020-01-26 11:53:03
阅读次数:
57
详细文档查看:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 一. 基本查询(SELECT …FROM) 1. 全表和特定列查询 select * from emp; select empno, ename ...
分类:
其他好文 时间:
2020-01-26 11:51:42
阅读次数:
101
一. Hive基础概念 1.什么是Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序。 1)Hiv ...
分类:
其他好文 时间:
2020-01-26 11:46:27
阅读次数:
96