数据来源层 数据库 日志 视频,ppt 数据传输层 Sqoop数据传递 Flume日志收集 kafka消息队列 数据存储层 HDFS文件存储 HBase非关系型数据库 kafka(存储少量数据) 资源管理层 YARN资源管理 数据计算层 MapReduce离线计算 Hive数据查询 Mahout数据 ...
分类:
其他好文 时间:
2020-06-22 00:56:04
阅读次数:
83
1.x MapReduce:计算+调度 HDFS:数据存储 Common:辅助工具 2.x MapReduce:计算 Yarn:资源调度 HDFS:数据存储 Common:辅助工具 ...
分类:
其他好文 时间:
2020-06-21 23:45:14
阅读次数:
83
探索性数据分析——Profiling 可以快速预览数据 导入包: import pandas as pd import pandas_profiling 导入数据: data=pd.read_csv("model.csv") 或者hive_query 输出报告: pandas_profiling.P ...
分类:
其他好文 时间:
2020-06-21 23:21:42
阅读次数:
41
Hadoop 分布式系统基础结构 海量数据存储,海量数据计算 Hadoop指的是Hadoop生态圈 Google=》Hadoop GFS->HDFS Map-Reduce->MR BigTable->HBase Hadoop发行版本 Apache:最基础 Cloudera:大型互联网企业 Horto ...
分类:
其他好文 时间:
2020-06-21 23:10:42
阅读次数:
63
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 1.row_number() over()排序功能 分组排序: 已有表 E E E 9 C E A 5 B B E 8 D D C 6 E A B 6 C B D 10 C E C 4 ...
分类:
编程语言 时间:
2020-06-21 17:53:04
阅读次数:
89
Hive分区表和分桶表 一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找, ...
分类:
其他好文 时间:
2020-06-21 16:22:24
阅读次数:
55
Hive常用DDL操作 一、Database 1.1 查看数据列表 show databases; 1.2 使用数据库 USE database_name; 1.3 新建数据库 语法: CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name -- ...
分类:
其他好文 时间:
2020-06-21 16:17:19
阅读次数:
47
1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录。 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟。 Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个数据 ...
分类:
Web程序 时间:
2020-06-21 13:52:56
阅读次数:
166
1,hive架构 1)client,客户端 2)Driver:驱动器 3)解析器,编译器,优化器,执行器 4)底层默认使用mr作为数据处理引擎 5)元数据,通常配置mysql来存储,这样支持多个客户端的访问 2,hive和传统数据库的比较 相同之处:都拥有类似的查询语言 不同之处: 1)数据存储位置 ...
分类:
其他好文 时间:
2020-06-21 13:51:48
阅读次数:
57
一、概述 1.Hadoop 是 Apache提供的开源的、可靠的、可扩展的,用于分布式计算的框架 2.Hadoop 除了官网提供的发行版本以外,各大厂商也提供了发行版:Cloudera的CDH、华为的HDP 二、发展 1.创始人:Doug Cutting和Mike Cafarella 2.在2002 ...
分类:
其他好文 时间:
2020-06-21 13:27:38
阅读次数:
141