在对数据进行汇总和分析的时候,经常需要用到排名相关的操作,下面是hive中经常用到的3个排名函数: rank() dense_rank() row_number() 函数说明: rank():在一组数据内按顺序显示排名顺序,值相同的情况下,排序数会重复,下个排序数会根据记录数接着排名。 dense_ ...
分类:
其他好文 时间:
2020-07-19 00:49:43
阅读次数:
74
Weblogic 集群搭建 Oracle的Weblogic分开发者版本和生产版本,有32位和64位。一般生产版本的weblogic是64位的,安装文件是一个大小为1G多的jar包。 去oracle官网上下载64版weblogic。这里使用的版本是weblogic11g,版本号是10.3.6,文件名为 ...
分类:
Web程序 时间:
2020-07-18 13:49:14
阅读次数:
109
首先去mysql官网下载mysql的离线rpm安装包(https://downloads.mysql.com/archives/community/) 上传到/data/rpm/mysql8.0目录下 因为Mysql依赖于mariadb,所以我们先用rpm -qa | grep mariadb 查找 ...
分类:
数据库 时间:
2020-07-18 13:32:54
阅读次数:
118
1、官网下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxC ...
分类:
其他好文 时间:
2020-07-17 22:02:27
阅读次数:
140
1.完成环境准备 a.开启hadoop服务 b.开启Mysql服务进入HIVE命令行界面 c.开启zookeeper服务 d.开启hbase服务进入命令行界面 ...
分类:
其他好文 时间:
2020-07-17 11:26:18
阅读次数:
54
我们都知道redis是内存数据库,数据都存储在内存当中,当redis服务宕机了,就没有可用的服务了,请求数据就会失败,所以我们需要搭建多个服务(集群),当单个服务崩溃后,其他服务选择一个替代死掉的服务,继续工作。提高程序的稳定性。废话不多说了。 将压缩包解压然后复制,总共3份,我们搭建1主2从模式, ...
分类:
其他好文 时间:
2020-07-16 20:59:04
阅读次数:
107
执行报错如下: 20/07/15 14:02:34 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly. 20/07/ ...
分类:
数据库 时间:
2020-07-15 15:29:36
阅读次数:
88
一、zookeeper集群介绍 zookeeper集群的目的是为了保证系统的性能承载更多的客户端连接设专门提供的机制。 通过集群可以实现以下功能: 读写分离:提高承载,为更多的客户端提供连接,并保障性能。 主从自动切换:提高服务容错性,部分节点故障不会影响整个服务集群。 因为 zookeeper 通 ...
分类:
其他好文 时间:
2020-07-14 00:41:44
阅读次数:
47
蚂蚁森林案例背景说明 原始数据样例 user_low_carbon.txt 记录用户每天的蚂蚁森林低碳生活领取的流水 数据样例 u_001 2017/1/1 10 u_001 2017/1/2 150 u_001 2017/1/2 110 plant_carbon.txt 记录申领环保植物所需要减少 ...
分类:
其他好文 时间:
2020-07-14 00:35:41
阅读次数:
817
一、概述 将数据以parquet模式写入到hive的分区表中时,底层源码有个错误,在进行分割字段判断时,没有引用已传入字符,多了一个“=”;该错误在hive的client中也会碰到 错误原因是底层分割符引用错误, 二、解决方法 从https://github.com/apache/parquet-m ...
分类:
其他好文 时间:
2020-07-13 21:24:30
阅读次数:
75