搜索关键字：hdfs dfsadmin，搜索到4996个结果！码迷,mamicode.com！

【CDN+】Kafka 的初步认识与入门

前言项目中用到了Kafka 这种分布式消息队列来处理日志，本文将对Kafka的基本概念和原理做一些简要阐释 Kafka 的基本概念官网解释： Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常 ...

分类：其他好文时间：2019-11-08 17:37:05 阅读次数：84

HDFS存入文件的整个流程

本文结合HDFS的副本和分块从宏观上描述HDFS存入文件的整个流程。HDFS体系中包含Client、NameNode、DataNode、SeconderyNameode四个角色，其中Client是客户端，NN负责管理，DN负责存储、SN协助管理。 ...

分类：其他好文时间：2019-11-08 12:46:03 阅读次数：99

Kafka Connect HDFS

概述Kafka 的数据如何传输到HDFS？如果仔细思考，会发现这个问题并不简单。不妨先想一下这两个问题?1）为什么要将Kafka的数据传输到HDFS上？2）为什么不直接写HDFS而要通过Kafka?HDFS一直以来是为离线数据的存储和计算设计的，因此对实时事件数据的写入并不友好，而Kafka生来就是... ...

分类：其他好文时间：2019-11-08 12:07:39 阅读次数：120

5.3.1 sequenceFile读写文件、记录边界、同步点、压缩排序、格式

5.3.1 sequenceFile读写文件、记录边界、同步点、压缩排序、格式 HDFS和MapReduce是针对大文件优化的存储文本记录,不适合二进制类型的数据。SequenceFile作为小文件的容器，SequenceFile类型将小文件包装起来，可以获得更高效率的存储和处理。sequenceF ...

分类：编程语言时间：2019-11-08 09:24:43 阅读次数：101

Hive_分区表

分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。分区表基本操作 1．引入分区表（需要根据日 ...

分类：其他好文时间：2019-11-05 01:08:05 阅读次数：113

Hive_常见属性配置

Hive数据仓库位置配置 1）Default数据仓库的最原始位置是在hdfs上的：/user/hive/warehouse路径下。 2）在仓库目录下，没有对默认的数据库default创建文件夹。如果某张表属于default数据库，直接在数据仓库目录下创建一个文件夹。 3）修改default数据仓库原 ...

分类：其他好文时间：2019-11-05 00:49:34 阅读次数：128

Hive_创建数据库

CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)]; ...

分类：数据库时间：2019-11-05 00:39:47 阅读次数：125

Hadoop系列（八）Hadoop三大核心之Yarn-资源调度初探

[Toc] 0. Yarn的来源 ? hadoop 1.x的时代，并没有Yarn，hadoop核心组件只有HDFS和MapReduce。到了hadoop2.x才有了Yarn的诞生，组件包含HDFS，MapReduce和Yarn。 ? 诞生原因：hadoop 1.x存在的最大问题就是资源管理问题。技术 ...

分类：其他好文时间：2019-11-04 15:11:45 阅读次数：135

ubuntu18.04 基于Hadoop3.1.2集群的Hbase2.0.6集群搭建

1. 前置条件: 之前已经搭好了带有HDFS, MapReduce,Yarn 的 Hadoop 集群链接: ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建 2. 上传tar包并修改配置文件解压tar包到指定目录进入配置目录 vim hb ...

分类：系统相关时间：2019-11-03 16:26:41 阅读次数：91

一、hive基本原理和使用

一、概述1、什么是hive?由Facebook开源用于解决海量结构化日志的数据统计。是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质上其实就是将HQL/SQL转化为MapReduce或者spark任务执行，然后返回结果。有以下几个本质：1）Hive处理的数据存储在HDFS。默认在在/user/hive/warehouse/<databas

分类：其他好文时间：2019-11-03 14:40:54 阅读次数：85

共4996条上一页 1 ... 54 55 56 57 58 ... 500 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)