搜索关键字：hdfs 元数据管理，搜索到5040个结果！码迷,mamicode.com！

hdfs显示、查看、下载、上传、删除文件操作

linux环境假设hdfs安装路径（例如是）： /usr/hdp/hadoop/bin/hdfs 1. -ls 列出当前目录下的文件、文件夹 /usr/hdp/hadoop/bin/hdfs dfs -ls /apps/hive/warehouse/my_home 2. 查看文件，例如hive表的 ...

分类：Web程序时间：2020-01-18 21:10:35 阅读次数：172

HDFS命令行操作和 api操作

HDFS，是Hadoop Distributed File System的简称，是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成，甚至可以通过Web协议（webhsfs）来操作。HDFS的文件分布在集群机器上，同时提供副本进行容错及可靠性保证。例 ...

分类：Windows程序时间：2020-01-17 13:46:19 阅读次数：97

Pulsar、ZooKeeper、BookKeeper 作用简述

Pulsar:采取了存储计算分离的技术ZooKeeper 集群的作用和在 Kafka 中是一样的，都是被用来存储元数据。BookKeeper 集群则被用来存储消息数据。BookKeeper 有点儿类似 HDFS，是一个分布式的存储集群，存储单元是ledger，Ledger可以简单的理解为某个主题队列 ...

分类：其他好文时间：2020-01-16 19:08:16 阅读次数：120

HDFS的Shell操作

1．基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2．命令大全 [root@hadoop002 hadoop-2.7.2]# hdfs dfs Usage: hadoop fs [generic options] [-appendT ...

分类：系统相关时间：2020-01-16 01:06:44 阅读次数：92

HDFS概述

HDFS产出背景及定义 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDF ...

分类：其他好文时间：2020-01-15 21:18:15 阅读次数：85

Ceph学习之路之Ceph的工作原理及流程

一、元数据和元数据管理（1）元数据在学习Ceph之前，需要了解元数据的概念。元数据又称为中介数据、中继数据，为描述数据的数据。主要描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。通俗地说，就?是用于描述一个文件的特征的系统数据，比如访问权限、文件拥有者以及文件数据 ...

分类：其他好文时间：2020-01-15 20:04:22 阅读次数：101

【设计模式】 (2)关于UML

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库... ...

分类：其他好文时间：2020-01-15 19:55:52 阅读次数：64

【设计模式】 (1)设计模式的七大原则

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库... ...

分类：其他好文时间：2020-01-15 19:44:01 阅读次数：63

【设计模式】 (3)设计模式概述

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库... ...

分类：其他好文时间：2020-01-15 19:30:34 阅读次数：76

Spark Web UI 监控详解

Spark集群环境配置我们有2个节点，每个节点是一个worker，每个worker上启动一个Executor，其中Driver也跑在master上。每个Executor可使用的核数为2，可用的内存为2g，集群中所有Executor最大可用核数为4。 conf/spark defaults.conf ...

分类：Web程序时间：2020-01-14 23:29:31 阅读次数：300