linux环境 假设hdfs安装路径(例如是): /usr/hdp/hadoop/bin/hdfs 1. -ls 列出当前目录下的文件、文件夹 /usr/hdp/hadoop/bin/hdfs dfs -ls /apps/hive/warehouse/my_home 2. 查看文件,例如hive表的 ...
分类:
Web程序 时间:
2020-01-18 21:10:35
阅读次数:
172
HDFS,是Hadoop Distributed File System的简称,是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成,甚至可以通过Web协议(webhsfs)来操作。HDFS的文件分布在集群机器上,同时提供副本进行容错及可靠性保证。例 ...
Pulsar:采取了存储计算分离的技术ZooKeeper 集群的作用和在 Kafka 中是一样的,都是被用来存储元数据。BookKeeper 集群则被用来存储消息数据。BookKeeper 有点儿类似 HDFS,是一个分布式的存储集群,存储单元是ledger,Ledger可以简单的理解为某个主题队列 ...
分类:
其他好文 时间:
2020-01-16 19:08:16
阅读次数:
120
1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2.命令大全 [root@hadoop002 hadoop-2.7.2]# hdfs dfs Usage: hadoop fs [generic options] [-appendT ...
分类:
系统相关 时间:
2020-01-16 01:06:44
阅读次数:
92
HDFS产出背景及定义 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDF ...
分类:
其他好文 时间:
2020-01-15 21:18:15
阅读次数:
85
一、元数据和元数据管理 (1)元数据 在学习Ceph之前,需要了解元数据的概念。元数据又称为中介数据、中继数据,为描述数据的数据。主要描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。通俗地说,就?是用于描述一个文件的特征的系统数据,比如访问权限、文件拥有者以及文件数据 ...
分类:
其他好文 时间:
2020-01-15 20:04:22
阅读次数:
101
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:
其他好文 时间:
2020-01-15 19:55:52
阅读次数:
64
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:
其他好文 时间:
2020-01-15 19:44:01
阅读次数:
63
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:
其他好文 时间:
2020-01-15 19:30:34
阅读次数:
76
Spark集群环境配置 我们有2个节点,每个节点是一个worker,每个worker上启动一个Executor,其中Driver也跑在master上。每个Executor可使用的核数为2,可用的内存为2g,集群中所有Executor最大可用核数为4。 conf/spark defaults.conf ...
分类:
Web程序 时间:
2020-01-14 23:29:31
阅读次数:
300