【为什么要了解hive执行流程】 【分析基于hadoop之上的SQL执行流程】 基本SQL框架 基本SQL框架 【例表:traffic_info】 【例表:TV_info】 解析:这两个简单的sql基本上涵盖了所有的大数据sql的框架,也就是说无论多磨复杂的大数据sql最终都会落到这两个简单的sql ...
分类:
数据库 时间:
2019-04-22 16:48:43
阅读次数:
309
01. 列举常见的关系型数据库和非关系型都有那些? 1.关系型数据库通过外键关联来建立表与表之间的关系, 常见的有:SQLite、Oracle、mysql 2.非关系型数据库通常指数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性来决定 常见的有:MongoDb、redis 02 ...
分类:
数据库 时间:
2019-04-22 00:36:33
阅读次数:
168
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个 ...
分类:
其他好文 时间:
2019-04-21 20:02:52
阅读次数:
280
本篇博客用于记录一下在 Linux 系统下安装 Java 环境。 在大部分的 Linux 系统中都有安装 Open JDK,所以最好是先卸载 Open JDK 后在进行我们的 JDK 安装。Open JDK 只包含了最精简的 JDK,源代码不完整。建议如果系统中存在 Open JDK, 先进行卸载在 ...
分类:
系统相关 时间:
2019-04-21 18:47:16
阅读次数:
290
hadoop-2.9.2与hive-2.3.4.bin在centos7上进行单机部署并简单测试
分类:
Web程序 时间:
2019-04-21 11:33:32
阅读次数:
429
【hive中的file_format】 SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多 TEXTFILE:生产中用的多,行式存储 RCFILE:生产中用的少,行列混合存储,OCR是他得升级版 ORC:生产中最常用,列式存储 PARQUET:生产中最常用,列式存储 A ...
分类:
其他好文 时间:
2019-04-21 09:17:35
阅读次数:
206
The Preliminary Contest for ICPC China Nanchang National Invitational 他人博客题解:戳这里 ...
分类:
其他好文 时间:
2019-04-20 22:57:39
阅读次数:
348
set mapreduce.job.queuename=root.kg;set hive.exec.dynamic.partition.mode=nonstrict; drop table if exists kg_fk_city; set mapreduce.job.queuename=root. ...
分类:
其他好文 时间:
2019-04-19 17:43:10
阅读次数:
146
Hive中数据加载失败:inode=:root:supergroup:drwxr-xr-x 在执行hive,数据加载的时候,遇到了一个错误,如下图: 在执行程序的过程中,遇到权限问题很正常,背后原理也不是很懂,但是通过修改配置,问题已经解决了。 解决方法:hadoop 的hdfs-site文件中添加 ...
分类:
其他好文 时间:
2019-04-19 16:10:18
阅读次数:
368