1、hive窗口函数(https://blog.csdn.net/yangshaojun1992/article/details/84074863) ...
分类:
其他好文 时间:
2019-06-11 16:25:34
阅读次数:
127
正则表达式基本语法 用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,使相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。 其中 ?: 是非捕获元之一,还有两个非捕获元是 ?= 和 ?!,这两个还有更多的含义,前者为正向预查,在任何开始匹配圆括号内的正则 ...
分类:
其他好文 时间:
2019-06-11 14:51:39
阅读次数:
128
讨论QQ:1586558083 目录 一、概述 二、Spark-SQL脚本 正文 回到顶部 一、概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说 ...
分类:
数据库 时间:
2019-06-11 13:32:05
阅读次数:
218
讨论QQ:1586558083 目录 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二: ...
分类:
其他好文 时间:
2019-06-11 13:00:13
阅读次数:
135
讨论QQ:1586558083 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcatio ...
分类:
数据库 时间:
2019-06-11 12:40:45
阅读次数:
126
windows下安装redis已经配置外网访问 1. 下载windows版本redis 官网无法下载windows版本的redis,需要到此链接下载 2. 选择 .msi 结尾的进行下载 双击运行,直接安装。根据提示进行安装即可。可以选择安装的端口 3. 进入安装目录 ? 选择安装的目录(根据自己实 ...
总体原则:推荐使用Anaconda进行配置(帮助解决了pytorch依赖库的问题) 一、先安装Anaconda3 1、sudo cur install 2、curl -0 https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.s ...
分类:
系统相关 时间:
2019-06-09 12:55:25
阅读次数:
120
安装前提 已安装并配置了Hadoop集群(单机或者全分布都行) 软件下载 Hive官网:https://hive.apache.org/index.html Hive安装 配置环境变量 将下载的Hive包上传到机器中,解压到指定路径 编辑 /etc/profile,配置Hive的环境变量 使环境配置 ...
分类:
其他好文 时间:
2019-06-09 09:37:28
阅读次数:
102
什么是Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS ...
分类:
其他好文 时间:
2019-06-09 09:28:32
阅读次数:
88
单机跑一个脚本做数据处理,但是由于输入数据实在太大,处理过程中占用大量内存经常被系统杀死,所以考虑放在hive中做数据聚合。借此机会研究下UDAF怎么写,把踏坑的经验写出来,希望可以帮助大家少走弯路!嗯。。。就酱紫。 经常听UDF,那么UDAF是什么鬼? 就是聚合功能的UDF啦~ 比如hive内置的 ...
分类:
其他好文 时间:
2019-06-08 18:54:43
阅读次数:
136