一、数据仓库的概念: 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的 ...
分类:
其他好文 时间:
2020-03-31 14:45:16
阅读次数:
77
sqoop导入导出问题 sqoop export --connect jdbc:mysql://ip:3306/eqpt_base_db?characterEncoding=utf8 --username root --password secret_password --table A_JQZ_T ...
分类:
数据库 时间:
2020-03-31 12:49:45
阅读次数:
130
传统Hive计算引擎为MapReduce,在Spark1.3版本之后,SparkSql正式发布,并且SparkSql与apachehive基本完全兼容,基于Spark强大的计算能力,使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先,准备测试环境,将hadoop集群conf目录下的core-site.xml、hd
分类:
数据库 时间:
2020-03-30 14:42:50
阅读次数:
141
window系统 第一步 下载(www.mysql.com) (1)对应的系统版本 第二步 安装(解压) ZIP Archive(免安装版) 第三步 配置mysql服务 第三步 配置path环境变量 ...
分类:
数据库 时间:
2020-03-30 13:00:19
阅读次数:
52
1.框架选型 hadoop 3.1.3 hive 3.1.2 zookeeper 3.5.7 hbase 2.2.3 kafka_2.11 2.4.0 spark 2.4.5 bin hadoop2.7 2.安装前准备 1.关闭防火墙 2.安装 JDK 3.安装 Scala 4.配置ssh 免密 5 ...
分类:
其他好文 时间:
2020-03-30 00:06:39
阅读次数:
66
整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 hive.exec.dynamic.partition=true 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) mapreduce.output.fileoutputformat.compress=true ...
分类:
其他好文 时间:
2020-03-29 19:55:40
阅读次数:
105
使用truncate仅可删除内部表数据,不可删除表结构 truncate table 表名 (truncate可删除所有的行,但是不能删除外部表) 使用shell命令删除外部表 hdfs -dfs -rm -r 外部表路径 使用 drop 可删除整个表 drop table 表名 ...
分类:
其他好文 时间:
2020-03-28 20:08:48
阅读次数:
72
KVM是指基于Linux内核的虚拟机(Virtual Machine)。KVM主要在于它是与Linux内核集成的,所以速度很快。KVM的宿主操作系统必须是Linux,支持的客户机操作系统包括Linux、Windows、Solaris和BSD,运行在支持虚拟化扩展的x86和x86_64硬件架构上,cpu支持VT技术。
分类:
其他好文 时间:
2020-03-27 17:06:19
阅读次数:
91
主要使用pyhive包。 使用linux中的普通账号,venv环境。python版本 3.6.4。 ldap认证需要sasl包,在安装sasl包的时候因为机器中没有g++编译器,导致无法安装。因为我使用的普通账号,没法给服务器安装g++编译器,解决的方案是在另一台机器中安装sasl,将安装完成后生成 ...
分类:
编程语言 时间:
2020-03-27 17:04:09
阅读次数:
206
SparkSession: SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。 SparkSession ...
分类:
其他好文 时间:
2020-03-27 16:48:03
阅读次数:
46