前言 项目中用到了Kafka 这种分布式消息队列来处理日志,本文将对Kafka的基本概念和原理做一些简要阐释 Kafka 的基本概念 官网解释: Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常 ...
分类:
其他好文 时间:
2019-11-08 17:37:05
阅读次数:
84
本文结合HDFS的副本和分块从宏观上描述HDFS存入文件的整个流程。HDFS体系中包含Client、NameNode、DataNode、SeconderyNameode四个角色,其中Client是客户端,NN负责管理,DN负责存储、SN协助管理。 ...
分类:
其他好文 时间:
2019-11-08 12:46:03
阅读次数:
99
概述Kafka 的数据如何传输到HDFS?如果仔细思考,会发现这个问题并不简单。不妨先想一下这两个问题?1)为什么要将Kafka的数据传输到HDFS上?2)为什么不直接写HDFS而要通过Kafka?HDFS一直以来是为离线数据的存储和计算设计的,因此对实时事件数据的写入并不友好,而Kafka生来就是... ...
分类:
其他好文 时间:
2019-11-08 12:07:39
阅读次数:
120
5.3.1 sequenceFile读写文件、记录边界、同步点、压缩排序、格式 HDFS和MapReduce是针对大文件优化的存储文本记录,不适合二进制类型的数据。SequenceFile作为小文件的容器,SequenceFile类型将小文件包装起来,可以获得更高效率的存储和处理。sequenceF ...
分类:
编程语言 时间:
2019-11-08 09:24:43
阅读次数:
101
分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。 分区表基本操作 1.引入分区表(需要根据日 ...
分类:
其他好文 时间:
2019-11-05 01:08:05
阅读次数:
113
Hive数据仓库位置配置 1)Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下。 2)在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹。 3)修改default数据仓库原 ...
分类:
其他好文 时间:
2019-11-05 00:49:34
阅读次数:
128
CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)]; ...
分类:
数据库 时间:
2019-11-05 00:39:47
阅读次数:
125
[Toc] 0. Yarn的来源 ? hadoop 1.x的时代,并没有Yarn,hadoop核心组件只有HDFS和MapReduce。到了hadoop2.x才有了Yarn的诞生,组件包含HDFS,MapReduce和Yarn。 ? 诞生原因:hadoop 1.x存在的最大问题就是资源管理问题。技术 ...
分类:
其他好文 时间:
2019-11-04 15:11:45
阅读次数:
135
1. 前置条件: 之前已经搭好了带有HDFS, MapReduce,Yarn 的 Hadoop 集群 链接: ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建 2. 上传tar包并修改配置文件 解压tar包到指定目录 进入配置目录 vim hb ...
分类:
系统相关 时间:
2019-11-03 16:26:41
阅读次数:
91
一、概述1、什么是hive?由Facebook开源用于解决海量结构化日志的数据统计。是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质上其实就是将HQL/SQL转化为MapReduce或者spark任务执行,然后返回结果。有以下几个本质:1)Hive处理的数据存储在HDFS。默认在在/user/hive/warehouse/<databas
分类:
其他好文 时间:
2019-11-03 14:40:54
阅读次数:
85