Hive数据倾斜 key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 还有其他解决方案 Hive内部表和外部表的区别 Hive 创建内部表时,会将数据移动到数据仓库指向的路 ...
分类:
其他好文 时间:
2019-11-17 10:23:34
阅读次数:
94
继上篇第一阶段清洗数据并导入hive 本篇是剩下的两阶段 2、数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎的Top10课程 (traffic) 3、数据可视化:将统计结果倒入MyS ...
分类:
其他好文 时间:
2019-11-16 23:06:41
阅读次数:
71
大数据从入门到入土 语言基础:java(Java se,javaweb) Linux 基础:Linux(shell,高并发架构,lucene,solr) 框架学习:Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) ...
分类:
其他好文 时间:
2019-11-16 21:47:53
阅读次数:
107
1.基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boolea ...
分类:
其他好文 时间:
2019-11-16 19:40:19
阅读次数:
94
IT管理:变更管理:1/ 简单版,效率高类似数仓拉一个相关群,先和业务确定时间,然后在群里发通知。通知模板:@所有人 通知 :hive 计算集群停30分钟 原因: 当前数据量增多,hue 查询内存不足 影响: hive 无法使用 调整时间: 今天21:20,调整时间30分钟 运维: @所有人 通知: ...
分类:
其他好文 时间:
2019-11-16 17:24:04
阅读次数:
81
首先虚拟机上已经安装好hive。 下面是连接hive需要的操作。 一、配置。 1.查找虚拟机的ip 输入 ifconfig 2.配置文件 (1)配置hadoop目录下的core-site.xml和hdfs-site.xml 在core-site.xml中添加下面配置: <property> <nam ...
分类:
数据库 时间:
2019-11-16 14:55:09
阅读次数:
118
I、下载并且解压hive #下载hive wget http://apache.claz.org/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz #解压 tar zxf apache-hive-2.3.6-bin.tar.gz #移动到hadoop文件夹中 ...
分类:
其他好文 时间:
2019-11-15 22:29:48
阅读次数:
83
日期:2019.11.15 博客期:117 星期五 这两天因为有课,其他的课程需要做实验,所以课下都在做其他科目的实验。 不过还是有新的进度的。 我研究了IP到城市的格式转换 1 public class IPUtil { 2 3 public static String getCityInfo(S ...
分类:
其他好文 时间:
2019-11-15 22:07:01
阅读次数:
189
一直想找个除了newid() 外高效取随机数的方法, 有点遗憾,木有找到,谁有除了newid()以外更高效的 请留言,谢谢 从A表随机取2条记录,用SELECT TOP 10 * FROM ywle order by newid()order by 一般是根据某一字段排序,newid()的返回值 是 ...
分类:
数据库 时间:
2019-11-15 15:42:28
阅读次数:
104
原文连接:https://www.cnblogs.com/654wangzai321/p/9970321.html 把Hive表数据导入到本地 table->local file insert overwrite local directory '/root/hive_test/1.txt' sel ...
分类:
数据库 时间:
2019-11-14 09:42:54
阅读次数:
93