Hive分区表和分桶表 一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找, ...
分类:
其他好文 时间:
2020-06-21 16:22:24
阅读次数:
55
Hive常用DDL操作 一、Database 1.1 查看数据列表 show databases; 1.2 使用数据库 USE database_name; 1.3 新建数据库 语法: CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name -- ...
分类:
其他好文 时间:
2020-06-21 16:17:19
阅读次数:
47
1,hive架构 1)client,客户端 2)Driver:驱动器 3)解析器,编译器,优化器,执行器 4)底层默认使用mr作为数据处理引擎 5)元数据,通常配置mysql来存储,这样支持多个客户端的访问 2,hive和传统数据库的比较 相同之处:都拥有类似的查询语言 不同之处: 1)数据存储位置 ...
分类:
其他好文 时间:
2020-06-21 13:51:48
阅读次数:
57
? 如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Had ...
分类:
其他好文 时间:
2020-06-20 23:54:38
阅读次数:
100
脚本通过ssh检查大数据环境中各节点的相关实例是否运行正常,包括:zk、hadoop-ha、hdfs、yarn、hbase、hive-metastore、hiveserver2、kafka。 注意修改成自己的集群节点名称及kafka版本 #!/bin/bash # 定义机器名前缀 HN_PREFIX ...
分类:
系统相关 时间:
2020-06-20 16:44:49
阅读次数:
68
UBUNTU 连接不了cn.archive.ubuntu.com ubuntu系统更换源更换源的方法:修改/etc/apt/sources.list文件即可进入目录 /etc/apt cd /etc/apt在修改前先对 sources.list文件进行备份sudo cp sources.list s ...
分类:
系统相关 时间:
2020-06-20 10:52:16
阅读次数:
174
封装要求应用程序使用EJB 3.0是类似于J2EE平台。 EJB组件打包成jar文件的模块被打包成ear文件的应用企业归档。 主要的企业应用程序有三个组成部分。 jar - Java应用程序归档,包含EJB模块,EJB客户端模块和实用模块。 war - Web应用程序归档,包含Web模块。 ear ...
分类:
其他好文 时间:
2020-06-19 16:07:09
阅读次数:
52
dubbo-monitor官方源码地址:https://github.com/Jeromefromcn/dubbo-monitor 1.下载dubbo-monitor源码并解压 [root@hdss7-200 src]# wget https://github.com/Jeromefromcn/du ...
分类:
其他好文 时间:
2020-06-18 19:01:12
阅读次数:
94
Hadoop+Hive+Zookeeper+hbase+kylin环境搭建说明
分类:
其他好文 时间:
2020-06-18 16:08:02
阅读次数:
58
ubuntu18 默认gcc7 安装低版本gcc4.9报错: 正在读取软件包列表... 完成 正在分析软件包的依赖关系树 正在读取状态信息... 完成 现在没有可用的软件包 gcc,但是它被其它的软件包引用了。 这可能意味着这个缺失的软件包可能已被废弃, 或者只能在其他发布源中找到 E: 软件包gc ...
分类:
系统相关 时间:
2020-06-17 10:42:33
阅读次数:
140