1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下: 步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i ...
分类:
其他好文 时间:
2020-09-17 17:04:51
阅读次数:
30
本文会从一个商务分析案例入手,说明SQL窗口函数的使用方式。通过本文的5个需求分析,可以看出SQL窗口函数的功能十分强大,不仅能够使我们编写的SQL逻辑更加清晰,而且在某种程度上可以简化需求开发。数据准备本文主要分析只涉及一张订单表orders,操作过程在Hive中完成,具体数据如下:--建表CREATETABLEorders(order_idint,customer_idstring,citys
分类:
数据库 时间:
2020-09-17 16:33:50
阅读次数:
45
前几天遇到一个这样的需求:销售总占比加起来超过75%的top分类。具体需求是这样的:商品一级分类标签下面有许多商品标签,例如运动户外一级标签,下面可能存在361°,CBA,Nike,Adidas...等这些商品标签。我们需要统计在一级标签下面占总销售比超过75%的商品标签有哪些,从而让我们了解一级品... ...
分类:
其他好文 时间:
2020-09-16 12:19:01
阅读次数:
73
UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 UDF的分类 UDF:one to one,进来一个出去一个,row mapping。是row级别操作,如:upper、substr函 ...
分类:
其他好文 时间:
2020-09-16 12:06:37
阅读次数:
34
源【1-1】如果有镜像源可以忽略此步骤一.zabbix安装 【1-1】 安 装 源【1-2】清理缓存【1-3】服务安装【1-4】修改配置二.安装数据库【2-1】下载工具【2-2】上 传 包【2-3 】 配 置三.zabbix配置【3-1】server端【3-2】agent端【3-3】补 充 四.服务... ...
分类:
其他好文 时间:
2020-09-14 19:09:47
阅读次数:
23
1.函数说明 主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。 1. rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内) 2. dense_rank() over()是连续排序,有两个第二 ...
分类:
其他好文 时间:
2020-09-11 16:15:16
阅读次数:
58
在hive内部有许多函数,如下: 内置运算符 关系运算符 算术运算符 逻辑运算符 复杂类型函数 内置函数内置聚合函数 数学函数 收集函数 类型转换函数 日期函数 条件函数 字符函数 内置聚合函数 内置表生成函数 1.1关系运算符 1. 等值比较: = 2. 等值比较:<=> 3. 不等值比较: <> ...
分类:
其他好文 时间:
2020-09-10 22:38:54
阅读次数:
41
1.hive本身对union这样的命令进行了优化 2.hdfs数据本地化率对hive性能产生影响 在数据大小一定的情况下,500个128M的文件和2个30G的文件 跑hive任务,性能是有差异的,两者最大的区别在于,后者在读取文件时,需要跨网络传输,而前者为本地读写。数据本地化率问题。 3.不同数据 ...
分类:
其他好文 时间:
2020-09-09 19:07:41
阅读次数:
34
图灵学院 java架构师学习路线 1、首先我们需要在官网上下载好我们需要的kafka,zookeeper版本的安装包。如图,百度搜索zookeeper,点击红圈所示链接进入官网,按照下图步骤点击相应红圈处,到http链接下载随意点击一个下载链接即可,本人是点击最上面的推荐链接,然后进入下载链接后选择 ...
分类:
编程语言 时间:
2020-09-04 17:08:39
阅读次数:
42
Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解
分类:
其他好文 时间:
2020-09-04 16:58:58
阅读次数:
42