讨论QQ:1586558083 目录 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二: ...
分类:
其他好文 时间:
2019-06-11 13:00:13
阅读次数:
135
讨论QQ:1586558083 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcatio ...
分类:
数据库 时间:
2019-06-11 12:40:45
阅读次数:
126
windows下安装redis已经配置外网访问 1. 下载windows版本redis 官网无法下载windows版本的redis,需要到此链接下载 2. 选择 .msi 结尾的进行下载 双击运行,直接安装。根据提示进行安装即可。可以选择安装的端口 3. 进入安装目录 ? 选择安装的目录(根据自己实 ...
总体原则:推荐使用Anaconda进行配置(帮助解决了pytorch依赖库的问题) 一、先安装Anaconda3 1、sudo cur install 2、curl -0 https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.s ...
分类:
系统相关 时间:
2019-06-09 12:55:25
阅读次数:
120
安装前提 已安装并配置了Hadoop集群(单机或者全分布都行) 软件下载 Hive官网:https://hive.apache.org/index.html Hive安装 配置环境变量 将下载的Hive包上传到机器中,解压到指定路径 编辑 /etc/profile,配置Hive的环境变量 使环境配置 ...
分类:
其他好文 时间:
2019-06-09 09:37:28
阅读次数:
102
什么是Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS ...
分类:
其他好文 时间:
2019-06-09 09:28:32
阅读次数:
88
单机跑一个脚本做数据处理,但是由于输入数据实在太大,处理过程中占用大量内存经常被系统杀死,所以考虑放在hive中做数据聚合。借此机会研究下UDAF怎么写,把踏坑的经验写出来,希望可以帮助大家少走弯路!嗯。。。就酱紫。 经常听UDF,那么UDAF是什么鬼? 就是聚合功能的UDF啦~ 比如hive内置的 ...
分类:
其他好文 时间:
2019-06-08 18:54:43
阅读次数:
136
ORBSLAM2代码总结 https://blog.csdn.net/hzwwpgmwy/article/details/82462988 ORBSLAM2局部地图更新实现 https://blog.csdn.net/u011380574/article/details/77968866 ORBSL ...
分类:
其他好文 时间:
2019-06-08 16:23:25
阅读次数:
119
Centos所有版本链接:http://archive.kernel.org/centos-vault/ 我下载的是6.9版本 Centos安装过程 选择重置磁盘 自定义分区 分区方式 这里分区方式: boot 引导系统启动 swap 如果内存<8G swap是内存1.5倍 交换分区 临时作为内存使 ...
分类:
系统相关 时间:
2019-06-07 20:43:08
阅读次数:
185
进行在分布式集群上跑MapReduce的时候,通过脚本来运行,发现提示找不到相应的命令。 错误的原因就是一条命令不要有空格,在等于号两边不要有空格,不要有空格,不要有空格。 有空格就会报错。 ...
分类:
系统相关 时间:
2019-06-07 12:42:43
阅读次数:
175