数据来源层 数据库 日志 视频,ppt 数据传输层 Sqoop数据传递 Flume日志收集 kafka消息队列 数据存储层 HDFS文件存储 HBase非关系型数据库 kafka(存储少量数据) 资源管理层 YARN资源管理 数据计算层 MapReduce离线计算 Hive数据查询 Mahout数据 ...
分类:
其他好文 时间:
2020-06-22 00:56:04
阅读次数:
83
1.x MapReduce:计算+调度 HDFS:数据存储 Common:辅助工具 2.x MapReduce:计算 Yarn:资源调度 HDFS:数据存储 Common:辅助工具 ...
分类:
其他好文 时间:
2020-06-21 23:45:14
阅读次数:
83
Hadoop 分布式系统基础结构 海量数据存储,海量数据计算 Hadoop指的是Hadoop生态圈 Google=》Hadoop GFS->HDFS Map-Reduce->MR BigTable->HBase Hadoop发行版本 Apache:最基础 Cloudera:大型互联网企业 Horto ...
分类:
其他好文 时间:
2020-06-21 23:10:42
阅读次数:
63
在微软Power Platform外,低代码开发领域,国外有两个比较火的公司Mendix和Outsystems,它们与美国企业数字化更早、IT成熟度较高有关,随着云计算变革和国内数字化转型带来的需求推动,国内低代码开发也会有很大的潜力。目前国内低代码平台大体有:iVX、牛刀、ClickPaaS、JE... ...
分类:
其他好文 时间:
2020-06-21 23:07:42
阅读次数:
99
常规软件无法在规定时间内处理完成的数据 bit Byte KB MB GB TB PB EB ZB YB BB NB DB ...
分类:
其他好文 时间:
2020-06-21 21:41:47
阅读次数:
41
Hive分区表和分桶表 一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找, ...
分类:
其他好文 时间:
2020-06-21 16:22:24
阅读次数:
55
Hive常用DDL操作 一、Database 1.1 查看数据列表 show databases; 1.2 使用数据库 USE database_name; 1.3 新建数据库 语法: CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name -- ...
分类:
其他好文 时间:
2020-06-21 16:17:19
阅读次数:
47
背景 阿里云基础版 RDS 最近因为大数据量查询经常宕机(阿里云工单回复是 OOM,让升级高可用版本~),导致日常办公软件(Crowd,Jira,Confluence等)无法使用,所以在 ECS 搭建本地 Mysql。 验证环境 Centos 7.7 Docker 1.13.1 拉取镜像 # 搜索 ...
分类:
数据库 时间:
2020-06-21 15:49:42
阅读次数:
69
1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录。 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟。 Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个数据 ...
分类:
Web程序 时间:
2020-06-21 13:52:56
阅读次数:
166