JobManager 处理 SubmitJob <! more https://t.zsxq.com/3JQJMzZ 博客 1、 "Flink 从0到1学习 —— Apache Flink 介绍" 2、 "Flink 从0到1学习 —— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序 ...
分类:
其他好文 时间:
2019-08-13 22:54:52
阅读次数:
245
1、情况描述如题所示,hbase启动以后,HMaster进程启动了,几秒钟以后自动关闭,但是HRegionServer进程正常运行; 原因是,hdfs的默认端口号是8020,而我core-site.xml中将hdfs的端口修改为了9000。 <property> <name>fs.defaultFS ...
分类:
系统相关 时间:
2019-08-13 22:41:36
阅读次数:
162
1. hadoop中HDFS的NameNode原理 1.1. 组成 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。 1.2. HDFS架构原理 比如现在要上传一个1T的大文件,提交给HDFS的 (用以存放文件目录树,权限设置,副本数设置等 ...
分类:
其他好文 时间:
2019-08-13 17:25:04
阅读次数:
89
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三 ...
分类:
其他好文 时间:
2019-08-13 00:53:23
阅读次数:
203
hadoop(一HDFS) 介绍 狭义上来说: hadoop指的是以下的三大系统: HDFS :分布式文件系统(高吞吐,没有延时要求,容错性,扩展能力)MapReduce : 分布式计算系统Yarn:分布式样集群资源管理 但是hadoop可不止这三个系统 广义上来说: hadoop指的是大数据的一个 ...
分类:
其他好文 时间:
2019-08-13 00:44:13
阅读次数:
88
本周主要是熟悉HDFS的操作。 在虚拟机安装好Hadoop后,我需要先熟悉下其自带的HDFS文件系统以及MapReduce的一系列操作,为接下来HBase的学习做好铺垫。因为HBase的文件存储系统是HDFS、数据处理方式是MapReduce,在很多操作上面有很多需要操作HDFS来进行的,所以我需要 ...
分类:
其他好文 时间:
2019-08-09 21:56:58
阅读次数:
101
hadoop小文件存档1.HDFS存档小文件弊端 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需的磁盘容量和数据块的大小无关。例如,一个1M的文件设置为128M的块存储, ...
分类:
其他好文 时间:
2019-08-09 01:44:07
阅读次数:
110
一、MySQL的安装 Hive的数据,是存在HDFS里的。此外,hive有哪些数据库,每个数据库有哪些表,这样的信息称之为hive的元数据信息。 元数据信息不存在HDFS,而是存在关系型数据库里,hive默认用的是derby数据库来存储。即hive工作时,除了要依赖Hadoop,还要依赖关系型数据库 ...
分类:
数据库 时间:
2019-08-08 00:22:09
阅读次数:
104
1、Application application(应用)其实就是用spark-submit提交的程序。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储。 2、 ...
分类:
移动开发 时间:
2019-08-07 20:48:55
阅读次数:
108
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。 这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooK ...
分类:
其他好文 时间:
2019-08-07 19:07:50
阅读次数:
85