今天我们课上做了一个关于数据清洗的实验,具体实验内容如下: 1.数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中; 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎 ...
分类:
其他好文 时间:
2019-11-14 00:16:22
阅读次数:
133
数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中 利用mapreduce完成将txt文件中数据存放在一个数组中,未成功连接hive数据库并存放在hive数据库中 目前完成代码: package org.apache.hadoop.examples; import java.io.IO ...
分类:
其他好文 时间:
2019-11-14 00:02:36
阅读次数:
80
1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 ...
分类:
数据库 时间:
2019-11-14 00:02:19
阅读次数:
222
现给定一个一千条的原始数据的txt文件,要求清洗掉多余字符,按照空格和换行规则导入hive中。 1、导入txt文件 使用BufferedReader方法导入txt文件,准备进行处理。 2、清洗数据 使用字符串分割函数split()将数据按照空格、/、+、,等字符进行分割。 3、导出txt文件 使用F ...
分类:
其他好文 时间:
2019-11-13 23:54:14
阅读次数:
185
题目要求: 1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article ...
分类:
其他好文 时间:
2019-11-13 23:53:43
阅读次数:
176
虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: articl ...
分类:
数据库 时间:
2019-11-13 22:25:39
阅读次数:
162
Hive看上去很像关系型数据库。不过,Hive实现和使用的方式和传统的关系型数据库非常不同。Hive是反模式的。 本文将重点介绍Hive中哪些模式是用户应该使用的,儿哪些是应该避免的 一、按天划分的表 这种每天一张表的方式在数据库领域是反模式的一种方式,但因为实际情况下,数据集增长的很快,这种方式应 ...
分类:
其他好文 时间:
2019-11-13 13:06:07
阅读次数:
64
这是因为没有mysql-connector的jar包。需要把jar包复制到hive目录lib文件夹中。 参考博客:https://blog.csdn.net/Realoyou/article/details/79145370 ...
分类:
数据库 时间:
2019-11-12 20:34:14
阅读次数:
146
这是因为mysql字符集的原因。修改mysql的字符集。 mysql> alter database hive character set latin1; 参考博客:https://blog.csdn.net/qq_38723677/article/details/82668506 ...
分类:
其他好文 时间:
2019-11-12 19:54:18
阅读次数:
52
通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。关于该目录的生成位置策略可参考该文章:ht ...
分类:
其他好文 时间:
2019-11-10 19:39:33
阅读次数:
271