码迷,mamicode.com
首页 >  
搜索关键字:hive 集群搭建    ( 7132个结果
1. 开启 Map 输出阶段压缩(中间压缩)
1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下: 步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i ...
分类:其他好文   时间:2020-09-17 17:04:51    阅读次数:30
使用Hive SQL窗口函数进行商务数据分析
本文会从一个商务分析案例入手,说明SQL窗口函数的使用方式。通过本文的5个需求分析,可以看出SQL窗口函数的功能十分强大,不仅能够使我们编写的SQL逻辑更加清晰,而且在某种程度上可以简化需求开发。数据准备本文主要分析只涉及一张订单表orders,操作过程在Hive中完成,具体数据如下:--建表CREATETABLEorders(order_idint,customer_idstring,citys
分类:数据库   时间:2020-09-17 16:33:50    阅读次数:45
Hive 窗口函数sum() over()求当前行和前面n条数据的和
前几天遇到一个这样的需求:销售总占比加起来超过75%的top分类。具体需求是这样的:商品一级分类标签下面有许多商品标签,例如运动户外一级标签,下面可能存在361°,CBA,Nike,Adidas...等这些商品标签。我们需要统计在一级标签下面占总销售比超过75%的商品标签有哪些,从而让我们了解一级品... ...
分类:其他好文   时间:2020-09-16 12:19:01    阅读次数:73
hive UDF 编程
UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 UDF的分类 UDF:one to one,进来一个出去一个,row mapping。是row级别操作,如:upper、substr函 ...
分类:其他好文   时间:2020-09-16 12:06:37    阅读次数:34
zabbix4.4
源【1-1】如果有镜像源可以忽略此步骤一.zabbix安装 【1-1】 安 装 源【1-2】清理缓存【1-3】服务安装【1-4】修改配置二.安装数据库【2-1】下载工具【2-2】上 传 包【2-3 】 配 置三.zabbix配置【3-1】server端【3-2】agent端【3-3】补 充 四.服务... ...
分类:其他好文   时间:2020-09-14 19:09:47    阅读次数:23
hive中row_number() rank() dense_rank()的用法
1.函数说明 主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。 1. rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内) 2. dense_rank() over()是连续排序,有两个第二 ...
分类:其他好文   时间:2020-09-11 16:15:16    阅读次数:58
hive函数大全
在hive内部有许多函数,如下: 内置运算符 关系运算符 算术运算符 逻辑运算符 复杂类型函数 内置函数内置聚合函数 数学函数 收集函数 类型转换函数 日期函数 条件函数 字符函数 内置聚合函数 内置表生成函数 1.1关系运算符 1. 等值比较: = 2. 等值比较:<=> 3. 不等值比较: <> ...
分类:其他好文   时间:2020-09-10 22:38:54    阅读次数:41
hive的调优经验
1.hive本身对union这样的命令进行了优化 2.hdfs数据本地化率对hive性能产生影响 在数据大小一定的情况下,500个128M的文件和2个30G的文件 跑hive任务,性能是有差异的,两者最大的区别在于,后者在读取文件时,需要跨网络传输,而前者为本地读写。数据本地化率问题。 3.不同数据 ...
分类:其他好文   时间:2020-09-09 19:07:41    阅读次数:34
java架构师学习路线-Zookeeper与Kafka集群搭建完整教程(上)
图灵学院 java架构师学习路线 1、首先我们需要在官网上下载好我们需要的kafka,zookeeper版本的安装包。如图,百度搜索zookeeper,点击红圈所示链接进入官网,按照下图步骤点击相应红圈处,到http链接下载随意点击一个下载链接即可,本人是点击最上面的推荐链接,然后进入下载链接后选择 ...
分类:编程语言   时间:2020-09-04 17:08:39    阅读次数:42
技本功|Hive优化之配置参数的优化(一)
Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解
分类:其他好文   时间:2020-09-04 16:58:58    阅读次数:42
7132条   上一页 1 ... 18 19 20 21 22 ... 714 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!