之前有操作过HBase和Hive的案例,将30w条数据从Hive导入HBase。使用sqoop可以快速简单做到,但是在最新版HBase2.0与最新版Hive3.0之间,旧版sqoop不行,因此当时使用了JDBC来连接两者,达到数据导出的目的。 HBase与Hive的对比 Hive 作为数据仓库,Hi ...
分类:
其他好文 时间:
2020-03-14 18:38:23
阅读次数:
53
什么是数据湖? 数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。它是一个以本机格式存储每种类型数据的地方,不受帐户大小或文件的固定限制。它提供了高数据量来提高分析性能和本地集成。 数据湖就像一个大容器,非常类似于真实的湖泊和河流。就像在一个湖中有多个支流,一个数据湖有结构化数据,非结 ...
分类:
其他好文 时间:
2020-03-14 10:58:47
阅读次数:
99
如果您接触过数据仓库, 您可能会使用 ETL (Extract、 Transform、 Load) 或 ELT ( Extract、Load、 Transform) 将您的数据从不同的来源提取到数据仓库中。这些是移动数据或集成数据的常用方法, 以便您可以关联来自不同来源的信息, 将数据安全地存储在一 ...
分类:
其他好文 时间:
2020-03-08 21:59:40
阅读次数:
87
静态数据:比如数据仓库中的数据, 类似三峡水库中的水. (数据挖掘, OLAP 分析工具) 流数据: 网络监控, 传感检测, 大量的, 流式的数据(不断的产生, 源源不断的到达). 比如 PM2.5 的检测, 这种需要实时的监控和处理(分析). 流数据的特性 推送的方式: 实时查询的结果 流计算应用 ...
分类:
其他好文 时间:
2020-02-29 20:39:25
阅读次数:
96
原文:https://www.cnblogs.com/MR-zhang-01/p/9180775.html一、联机事务处理系统(OLTP系统)也称为生产系统,它是事件驱动、面向需求的,比如银行的储蓄系统就是一个典型的OLTP系统。OLTP在使用过程中积累了大量的数据。关系数据库概念提出之后,联机事务... ...
分类:
其他好文 时间:
2020-02-24 15:04:48
阅读次数:
94
查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 数据存储位置。Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库 ...
分类:
其他好文 时间:
2020-02-13 22:35:19
阅读次数:
73
基础概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十 ...
分类:
其他好文 时间:
2020-02-12 22:01:50
阅读次数:
67
为什么用缓存数据库 MySQL:将数据存储在磁盘上,数据写入读取相对较慢 Memcached:将数据存在内存中的数据库,数据读写都快,但是数据容易丢失 数据存储,数据仓库选择MySQL这种磁盘的数据库 高并发,业务大的应用选择Memcached这种内存数据库 当然,在工作中,都是景MySQL+Mem ...
分类:
数据库 时间:
2020-02-08 10:10:20
阅读次数:
150
1. 引入 在Databricks的过去几年中,我们看到了一种新的数据管理范式,该范式出现在许多客户和案例中:LakeHouse。在这篇文章中,我们将描述这种新范式及其相对于先前方案的优势。 "数据仓库" 技术自1980诞生以来一直在发展,其在决策支持和商业智能应用方面拥有 "悠久的历史" ,而MP ...
分类:
其他好文 时间:
2020-02-03 22:09:37
阅读次数:
180
DataFrame创建方式应该按照数据源进行划分,数据源是:普通的txt文件、json/parquet文件、mysql数据库、hive数据仓库 1、普通txt文件: (1)case class 创建 (2)structType 创建 2、json/parquet文件: 直接读取 3、mysql数据库 ...
分类:
其他好文 时间:
2020-02-03 14:04:07
阅读次数:
93