* 如果是非Ubuntu系统,下面的apt-get命令要换成yum命令。apt-cache search all | grep -> yum list installed | grepapt-get purge -y -> yum remove -y其中的参数-y是过程中所有提示都自动选yes的作用 ...
分类:
其他好文 时间:
2021-01-07 12:30:42
阅读次数:
0
Atlas 作用: 记录并展示Hive表字段含义,以及表和字段之间的数据血缘关系。 局限: 依赖HBase和solr。 Azkaban 作用: 实现任务流执行,满足任务间依赖关系。 局限: 任务能添加依赖的任务,但是不能传参数,任务流中任意一条路线断了,不能这条路线重启执行。 ...
分类:
其他好文 时间:
2021-01-07 12:23:38
阅读次数:
0
最近在处理excel的时候,想到利用python可以批量操作,常用的包有xlrd,xlwt和openpyxl,三者区别如下: xlrd只能读取数据,可以处理xls和xlsx; xlwt只能写数据,只能处理xls openpyxl可以读数据和写数据,但只能处理xlsx 当收到的文件既有xls,又有xl ...
分类:
编程语言 时间:
2021-01-06 12:47:29
阅读次数:
0
1.为什么安装Impala一定要先安装Hive? Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。 2.Impala与Hive的关系? Impala 与Hive都是构建在Hadoop之上的 ...
分类:
其他好文 时间:
2021-01-06 11:58:32
阅读次数:
0
来源:https://mp.weixin.qq.com/s/NdvHxOtVB7AS5P75QdVO7Q 正文目录 1、表层面 1.1 利用分区表优化 1.2 利用分桶表优化 1.3 选择合适的文件存储格式 1.4 选择合适的压缩格式 2、HQL层面优化 2.1 执行计划 2.1 列、行、分区裁剪 ...
分类:
其他好文 时间:
2021-01-05 11:16:21
阅读次数:
0
网站用户行为分析 步骤 1.1 本地数据集上传到数据仓库Hive 数据集下载与查看 数据集预处理 把数据集导入HDFS中 在Hive上创建数据库 1.2 Hive数据分析 给出数据分析需求 用select语句实现数据分析 数据分析结果查看与保存 1.3 Hive、MySQL、HBase数据互导 操作 ...
分类:
Web程序 时间:
2021-01-02 11:41:47
阅读次数:
0
Zookeeper 概述&命令 1)初识 Zookeeper 1.1)Zookeeper概念 ?Zookeeper 是 Apache Hadoop 项目下的一个子项目,是一个树形目录服务。 ?Zookeeper 翻译过来就是 动物园管理员,他是用来管 Hadoop(大象)、Hive(蜜蜂)、Pig( ...
分类:
其他好文 时间:
2021-01-02 11:29:32
阅读次数:
0
将hive/lib下面的jline-2.12.jar 复制到hadoop目录下 cp /usr/local/src/hive-1.2.2/jline-2.12.jar /usr/local/src/hadoop-2.6.1/share/hadoop/yarn/lib/ ...
分类:
其他好文 时间:
2021-01-01 12:54:42
阅读次数:
0
import xlrddata = xlrd.open_workbook('lujing+wenjianming.xls')all_sheet_list=data.sheet_names()print(all_sheet_list)table=data.sheet_by_name('工作表')tab ...
分类:
其他好文 时间:
2020-12-31 12:57:43
阅读次数:
0
网站用户行为分析 步骤 1.1 本地数据集上传到数据仓库Hive 数据集下载与查看 数据集预处理 把数据集导入HDFS中 在Hive上创建数据库 1.2 Hive数据分析 给出数据分析需求 用select语句实现数据分析 数据分析结果查看与保存 1.3 Hive、MySQL、HBase数据互导 操作 ...
分类:
Web程序 时间:
2020-12-31 12:08:34
阅读次数:
0