Hive数据倾斜 key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 还有其他解决方案 Hive内部表和外部表的区别 Hive 创建内部表时,会将数据移动到数据仓库指向的路 ...
分类:
其他好文 时间:
2019-11-17 10:23:34
阅读次数:
94
来自课程案例学习 某跨国食品超市的信息管理系统,每天都会记录成千上万条各地连锁超市的销售数据。基于大数据的背景,该公司的管理层决定建立FoodMart数据仓库,期望能从庞大的数据中挖掘出有商业价值的信息,来进一步帮助管理层进行决策。 设计一个销售数据仓库。要求: 1、至少4个维度,每个维度至少3个属 ...
分类:
其他好文 时间:
2019-11-16 23:41:19
阅读次数:
440
数据仓库概念 1.概念模型设计 所要完成的工作是: (1)界定系统边界 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这样信息需要包含原有数据库哪些数据? (2)确定主要的主题及其内容: 主题是基于业务来说的,不是技术本身。如果业务能够按照一定规模分割出独立的 ...
分类:
其他好文 时间:
2019-11-12 01:01:40
阅读次数:
79
服务器硬盘,就是服务器上使用的硬盘。如果说服务器是网络数据的核心,那么服务器硬盘就是这个核心的数据仓库,所有的软件和用户数据都存储在这里
分类:
其他好文 时间:
2019-11-11 18:21:25
阅读次数:
82
Hive数据仓库位置配置 1)Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下。 2)在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹。 3)修改default数据仓库原 ...
分类:
其他好文 时间:
2019-11-05 00:49:34
阅读次数:
128
一、概述1、什么是hive?由Facebook开源用于解决海量结构化日志的数据统计。是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质上其实就是将HQL/SQL转化为MapReduce或者spark任务执行,然后返回结果。有以下几个本质:1)Hive处理的数据存储在HDFS。默认在在/user/hive/warehouse/<databas
分类:
其他好文 时间:
2019-11-03 14:40:54
阅读次数:
85
压抑了这么久了,是时候来一啵活动了。 为了感谢朋友们一直以来的支持,今天米兜得到一位既是主编也是粉丝的支持,将赠送来自这位朋友编写的一本书籍《Hive数据仓库企业级应用》。此书真心推荐朋友们阅读。 本次赠书活动规则: 第一阶段:11月2日 11月8日,将从点击本文在看且转发朋 ...
分类:
其他好文 时间:
2019-11-03 12:45:10
阅读次数:
80
数据库知识 数据库模型(概念模式、外模式、内模式) 数据模型,ER 图,规范化 数据操作 数据库语言 数据库管理系统的功能和特征 数据库的控制功能 数据仓库和分布式数据库基础知识 范式: 第一范式(1NF):在关系模式R中,当且仅当所有域只包含原子值,即每个分量都是不可再分的数据项,则称实体E是第一 ...
分类:
数据库 时间:
2019-11-02 11:58:08
阅读次数:
129
hive安装部署 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为Mapreduce任务进行运行 在data目录下创建hive1目录用于存放相关文件 下载hive和mysql connector 解压hive到 ...
分类:
其他好文 时间:
2019-10-29 21:38:08
阅读次数:
99
数据库与数据仓库的区别 数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别。 操作性处理,叫联机事务处理OLTP(On-Line Transaction Processing),也可以称面向交易的处理系统,他是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询,修改。用户较为关心操作的 ...
分类:
数据库 时间:
2019-10-24 21:41:38
阅读次数:
106