搜索关键字：hive 集群搭建，搜索到7132个结果！码迷,mamicode.com！

1. 开启 Map 输出阶段压缩(中间压缩)

1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下：步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i ...

分类：其他好文时间：2020-09-17 17:04:51 阅读次数：30

使用Hive SQL窗口函数进行商务数据分析

本文会从一个商务分析案例入手，说明SQL窗口函数的使用方式。通过本文的5个需求分析，可以看出SQL窗口函数的功能十分强大，不仅能够使我们编写的SQL逻辑更加清晰，而且在某种程度上可以简化需求开发。数据准备本文主要分析只涉及一张订单表orders，操作过程在Hive中完成，具体数据如下：--建表CREATETABLEorders(order_idint,customer_idstring,citys

分类：数据库时间：2020-09-17 16:33:50 阅读次数：45

Hive 窗口函数sum() over()求当前行和前面n条数据的和

前几天遇到一个这样的需求：销售总占比加起来超过75%的top分类。具体需求是这样的：商品一级分类标签下面有许多商品标签，例如运动户外一级标签，下面可能存在361°，CBA，Nike，Adidas...等这些商品标签。我们需要统计在一级标签下面占总销售比超过75%的商品标签有哪些，从而让我们了解一级品... ...

分类：其他好文时间：2020-09-16 12:19:01 阅读次数：73

hive UDF 编程

UDF的定义 UDF（User-Defined Functions）即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求，这时就需要我们自定义函数了 UDF的分类 UDF：one to one，进来一个出去一个，row mapping。是row级别操作，如：upper、substr函 ...

分类：其他好文时间：2020-09-16 12:06:37 阅读次数：34

zabbix4.4

源【1-1】如果有镜像源可以忽略此步骤一.zabbix安装【1-1】安装源【1-2】清理缓存【1-3】服务安装【1-4】修改配置二.安装数据库【2-1】下载工具【2-2】上传包【2-3 】配置三.zabbix配置【3-1】server端【3-2】agent端【3-3】补充四.服务... ...

分类：其他好文时间：2020-09-14 19:09:47 阅读次数：23

hive中row_number() rank() dense_rank()的用法

1.函数说明主要是配合over()窗口函数来使用的，通过over(partition by order by )来反映统计值的记录。 1. rank() over()是跳跃排序，有两个第二名时接下来就是第四名（同样是在各个分组内） 2. dense_rank() over()是连续排序，有两个第二 ...

分类：其他好文时间：2020-09-11 16:15:16 阅读次数：58

hive函数大全

在hive内部有许多函数，如下：内置运算符关系运算符算术运算符逻辑运算符复杂类型函数内置函数内置聚合函数数学函数收集函数类型转换函数日期函数条件函数字符函数内置聚合函数内置表生成函数 1.1关系运算符 1. 等值比较: = 2. 等值比较:<=> 3. 不等值比较: <> ...

分类：其他好文时间：2020-09-10 22:38:54 阅读次数：41

hive的调优经验

1.hive本身对union这样的命令进行了优化 2.hdfs数据本地化率对hive性能产生影响在数据大小一定的情况下，500个128M的文件和2个30G的文件跑hive任务，性能是有差异的，两者最大的区别在于，后者在读取文件时，需要跨网络传输，而前者为本地读写。数据本地化率问题。 3.不同数据 ...

分类：其他好文时间：2020-09-09 19:07:41 阅读次数：34

java架构师学习路线-Zookeeper与Kafka集群搭建完整教程（上）

图灵学院 java架构师学习路线 1、首先我们需要在官网上下载好我们需要的kafka，zookeeper版本的安装包。如图，百度搜索zookeeper，点击红圈所示链接进入官网，按照下图步骤点击相应红圈处，到http链接下载随意点击一个下载链接即可，本人是点击最上面的推荐链接，然后进入下载链接后选择 ...

分类：编程语言时间：2020-09-04 17:08:39 阅读次数：42

技本功|Hive优化之配置参数的优化（一）

Hive是大数据领域常用的组件之一，主要用于大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解

分类：其他好文时间：2020-09-04 16:58:58 阅读次数：42

共7132条上一页 1 ... 18 19 20 21 22 ... 714 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)