一. 自定义函数分类 当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数. 根据用户自定义函数类别分为以下三种: 1. UDF(User-Defined-Function) 一进一出 2. UDAF(User-Defined Aggregation Function ...
分类:
其他好文 时间:
2018-12-21 21:17:11
阅读次数:
196
"select 大区, 配送中心, nvl(洗衣机,'_') 洗衣机, nvl(冰箱,'_') 冰箱, nvl(电热水器,'_') 电热水器, ... ...
分类:
其他好文 时间:
2018-12-21 20:20:21
阅读次数:
169
之前讨论过hive中limit的实现,详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现,首先看执行计划: spark-sql> explain select * from test1 limit 10 ...
分类:
数据库 时间:
2018-12-21 15:24:01
阅读次数:
385
正文: 现在作为服务器操作系统的一般有三种,Windows Server,Linux,Unix,在这里我们只介绍在windows下和linux下安装mysql,Unix下安装应该和linux差不多。 Windows下安装MySQL: 1. 在浏览器中打开https://www.mysql.com/, ...
分类:
数据库 时间:
2018-12-21 00:04:41
阅读次数:
359
1 查询具体表分区大小,以字节展示 2 定义shell脚本: 3 调用命令: sh filter5.sh dm_user_excercise.txt ...
分类:
其他好文 时间:
2018-12-20 18:57:40
阅读次数:
227
hive的库、表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句,像操作关系数据库一样操作文件内容,比如执行查询,统计,插入等操作。一直很好奇hive是如何做到这些的。hive的整体架构图如下所示,compiler部分负责把HiveSQL转换成MapReduce任务。基本转换步骤hiveSQL转换成MapReduce的执行计划包括如下几个步骤:HiveSQL->AST(抽象
分类:
数据库 时间:
2018-12-20 16:54:12
阅读次数:
230
前言: 公司要统计 treasury库hive表磁盘空间,写了个脚本,如下: 查询hive仓库表占用hdfs文件大小: hadoop fs -du -h /user/hive/warehouse/treasury.db > treasury.txt 脚本: 调用命令: sh filter2.sh 1 ...
分类:
系统相关 时间:
2018-12-19 19:37:09
阅读次数:
252
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT / ...
分类:
系统相关 时间:
2018-12-19 17:03:13
阅读次数:
204
1 概述 1.1 为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如 ...
分类:
其他好文 时间:
2018-12-19 15:40:42
阅读次数:
170
spark查orc格式的数据有时会报这个错 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits(OrcInputF ...
分类:
其他好文 时间:
2018-12-19 13:02:19
阅读次数:
311