使用sqoop将hive中的统计数据导入到mysql中 思路:首先在hive上创建临时表,然后将统计数据放在临时表中,最后通过sqoop将临时表中的数据导入到mysql中。 例子:将各个官方部门回答的数量都导入到mysql中。 1.在hive中创建capital_temp表 create table ...
分类:
其他好文 时间:
2020-02-03 15:56:29
阅读次数:
286
DataFrame创建方式应该按照数据源进行划分,数据源是:普通的txt文件、json/parquet文件、mysql数据库、hive数据仓库 1、普通txt文件: (1)case class 创建 (2)structType 创建 2、json/parquet文件: 直接读取 3、mysql数据库 ...
分类:
其他好文 时间:
2020-02-03 14:04:07
阅读次数:
93
因为想要通过hive作为数据库来保存爬取后和处理完成的数据,需要添加spark的hive支持,这方面还没编译完,所以今天暂时没有这方面的进度,所以写写SparkSteaming。 数据的价值随着时间的流逝而减少 这也正是MapReduce的使用范围所产生的的极大弊端,没法应对大流量的实时数据,MR这 ...
分类:
其他好文 时间:
2020-02-02 21:59:34
阅读次数:
95
1、《CentOS6.5下安装Hadoop-2.7.3(图解教程)》 https://www.toutiao.com/i6627365258090512909/ 2、《CentOS6.5-Hadoop2.7.3安装hive-2.1.1》 https://www.toutiao.com/i662772 ...
分类:
其他好文 时间:
2020-02-02 14:10:28
阅读次数:
109
Java连接hive简单操作 首先在使用java连接前我们需要在虚拟机上开启hiveserver2(hiveserver2需要安装),hiveserve2的作用是实现hive可以进行并发操作,否则没有办法实现java对hive的操作。 使用命令:hiveserver2即可打开hiveserver2服 ...
分类:
其他好文 时间:
2020-02-02 14:03:22
阅读次数:
84
开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 首先创建了一个json文件用来创建DataFrame,内容为: { "id":1 , "name":" Ell ...
分类:
其他好文 时间:
2020-02-01 23:18:31
阅读次数:
97
使用Sqoop将mysql数据传到hive 系统环境:hadoop2.65,mysql5.7.28,sqoop1.47,hive1.2.2,虚拟机centos7,物理机windows10 注意点:安装sqoop不要将目录设在hadoop下面,否则在运行下面命令时会发生找不到jar包的问题,我估计是系 ...
分类:
其他好文 时间:
2020-02-01 21:20:23
阅读次数:
297
正确返回system的地址的情况下,无法拿shell "通过Ex师傅的博客找解决方法" 简单来说就是返回地址处加个ret,使rsp能栈对齐 ...
分类:
系统相关 时间:
2020-01-31 12:37:59
阅读次数:
73
1、首先打开 hive DEBUG日志,执行以下命令,直接将日志输出到控制台 2、我们知道HIVE启动过程中,首先会先连接hive metastore,然后在连接HDFS namenode,我们可以根据日志时间点来判断和排查哪一步执行时间过长导致。 3、如果是hive metastore 连接过慢, ...
分类:
其他好文 时间:
2020-01-29 23:31:34
阅读次数:
285