1 分组求TopN 一、先看数据: 使用HiveSQL常用的方式为: Select * from table, row_number() over(partition by item order by score desc) rank where rank<=2; 二、输出结果为: 三、解析:row ...
分类:
数据库 时间:
2021-06-13 10:48:09
阅读次数:
0
4.1 统计视频观看数 Top10 思路:使用 order by 按照 views 字段做一个全局排序即可,同时我们设置只显示前 10 条。 最终代码: SELECT videoId, views FROM gulivideo_orc ORDER BY views DESC LIMIT 10; 4. ...
分类:
其他好文 时间:
2021-06-13 10:04:23
阅读次数:
0
4 Join 语句 4.1 等值 Join Hive 支持通常的 SQL JOIN 语句,但是只支持等值连接,不支持非等值连接。 案例实操 (1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称; hive (default)> select e.empno, e.ename, ...
分类:
编程语言 时间:
2021-06-13 10:00:11
阅读次数:
0
HBase表热点 1 什么是热点 检索habse的记录首先要通过row key来定位数据行。 当大量的client访问hbase集群的一个或少数几个节点,造成少数region server的读/写请求过多、负载过大,而其他region server负载却很小,就造成了“热点”现象。 2 热点的解决方 ...
分类:
其他好文 时间:
2021-06-13 09:58:55
阅读次数:
0
在消息RabbitMQ时,我们关心的一个问题是手动ack还是自动ack,如果是自动ack就怕出现丢消息的情况 Flink以RabbitMQ作为Source,是怎么保证消息唯一性的呢,是怎么保证ack的. 首先引入依赖包 <dependency> <groupId>org.apache.flink</ ...
分类:
其他好文 时间:
2021-06-11 19:15:45
阅读次数:
0
LINUX 系统的一些入门基础 Shell Linux系统中运行的一种特殊程序 在用户和内核之间充当“翻译官” 用户登录Linux系统时自动加载一个shell程序 Bash是Linux系统中默认使用的shell程序 文件位于/bin/bash Linux命令的分类 内部命令与外部命令的区别 内部命令 ...
分类:
系统相关 时间:
2021-06-11 18:52:59
阅读次数:
0
ORACLE不能导出空表的解决方法1.查找当前用户所有空表,并构建命令语句,为了生成空表集合。-- 查找所有空表SQL select table_name from user_tables where NUM_ROWS=0;-- 构造所有空表的命令语句select'alter table ' || ...
分类:
数据库 时间:
2021-06-11 18:41:55
阅读次数:
0
本文所指之数据工程,限定于: 数据分析、数据采集(集成) 1 网站 spider-flow - 智能高效的在线爬虫 spider-flow 是一个无需写代码的爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫 superset.workerindata.com - 账号: bilibili ...
分类:
数据库 时间:
2021-06-11 18:27:40
阅读次数:
0
宝塔是一款Linux可视化软件 1.一键安装 apt-get install wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && bash install.sh 2.卸载 1)打开shell终端,输入命 ...
分类:
系统相关 时间:
2021-06-11 18:10:52
阅读次数:
0
一个新的需求,需要在shell脚本中退出当前登录用户 方式一 #!/bin/bash I=$(tty |awk -F '/dev/' '{print $2}') pkill -kill -t $I 方式二 #!/bin/bash I=$(who am i|awk '{print $2}') pkil ...
分类:
系统相关 时间:
2021-06-11 17:45:51
阅读次数:
0