常规软件无法在规定时间内处理完成的数据 bit Byte KB MB GB TB PB EB ZB YB BB NB DB ...
分类:
其他好文 时间:
2020-06-21 21:41:47
阅读次数:
41
Hive分区表和分桶表 一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找, ...
分类:
其他好文 时间:
2020-06-21 16:22:24
阅读次数:
55
Hive常用DDL操作 一、Database 1.1 查看数据列表 show databases; 1.2 使用数据库 USE database_name; 1.3 新建数据库 语法: CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name -- ...
分类:
其他好文 时间:
2020-06-21 16:17:19
阅读次数:
47
背景 阿里云基础版 RDS 最近因为大数据量查询经常宕机(阿里云工单回复是 OOM,让升级高可用版本~),导致日常办公软件(Crowd,Jira,Confluence等)无法使用,所以在 ECS 搭建本地 Mysql。 验证环境 Centos 7.7 Docker 1.13.1 拉取镜像 # 搜索 ...
分类:
数据库 时间:
2020-06-21 15:49:42
阅读次数:
69
1.Hadoop平台: 1.理论概念:结构组成: 1. HDFS分布式文统.2.MapReduce计算大数据. 3Yarn任务调度与资源管理. 2. 伪分布式环境搭建: 网络配置: 配置网卡信息: vi /etc/sysconfig/network 配置主机的虚拟域名: vi /etc/hosts ...
分类:
其他好文 时间:
2020-06-21 11:26:51
阅读次数:
96
? 如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Had ...
分类:
其他好文 时间:
2020-06-20 23:54:38
阅读次数:
100
消息中间件你知道多少?通过调研了解总结如下一、市场上的消息中间件产品有哪些。RabbitMQ Elang语言 高效 吞吐量RockMQ 阿里产品ActiveMQ 传统 实现JMS规范 Kafka 大数据 日志采集 二、消息中间件的优点。削峰 用于高并发场景,进行削峰异步 提供用户操作响应时间,优化用 ...
分类:
其他好文 时间:
2020-06-20 22:37:52
阅读次数:
84
1.需求背景是什么?2.存储何种数据?3.数据特点是什么?4.存在哪些技术挑战?5.解决方案有哪些?6.md5散列桶的方法需要注意的问题?7.测试结果是什么?解决方案:1 需求背景该应用场景为DMP缓存存储需求,DMP需要管理非常多的第三方id数据,其中包括各媒体cookie与自身cookie(以下 ...
分类:
其他好文 时间:
2020-06-20 22:32:36
阅读次数:
158