一、首先进入:/usr/local/bin 文件夹下,编写start-cluster.sh脚本 vim start-cluster.sh (需要root权限) 下面的各个节点的信息根据自身情况进行修改 保存,退出。修改执行权限 chmod 777 start-cluster.sh 运行: 二、编写s ...
分类:
系统相关 时间:
2019-10-29 22:05:03
阅读次数:
240
一、数据压缩在hadoop中的意义1、基本概述?压缩技术可以减少底层hdfs的读写字节数。并且能够降低在数据传输过程中占用的网络带宽资源,以及降低占用的磁盘空间。而在MapReduce中,shuffle以及merge过程都面临着巨大的IO压力。但是要注意增加了压缩,另外一方面会增加cpu的负载。所以在要权衡好是否采用压缩,以及采用的压缩算法的特性。2、压缩应用基本原则运算密集型的job,少用压缩。
分类:
其他好文 时间:
2019-10-29 13:44:07
阅读次数:
84
HDFS开发 HDFS理论讲解 集群和分布式概念 集群:集群就是逻辑上处理统一任务的机器集合,可以属于同一机房,也可以分属不同的机房 分布式:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群 分布式文件系统的结构 主节点 名称节点 数据节点 HDFS架构 块 HDF ...
分类:
其他好文 时间:
2019-10-29 10:00:45
阅读次数:
85
1、工作机制详述 (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAp ...
分类:
其他好文 时间:
2019-10-28 19:13:11
阅读次数:
86
HDFS是英文Hadoop Distributed File System的缩写,中文翻译为Hadoop分布式文件系统,它是实现分布式存储的一个系统,所以分布式存储有的特点,HDFS都会有,HDFS的架构图: 上图中HDFS的NameNode其实就是对应着分布式存储的Storage master,主 ...
分类:
其他好文 时间:
2019-10-28 10:45:47
阅读次数:
326
上传文件: cd /$HADOOP_HOME start-dfs.sh start-yarn.sh 查看集群的运行状态 http://192.168.56.110:50070/ 查看集群的目录结构 http://192.168.56.110:50070/explorer.html#/ 2.从宿主机上 ...
分类:
Web程序 时间:
2019-10-28 10:41:34
阅读次数:
82
HA 高可用集群概述及其原理解析 1. 概述 1)所谓HA(High Available),即高可用(7 24小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS 的HA和YARN的HA。 3)Hadoop2.0之前,在HDFS集群中Name ...
分类:
其他好文 时间:
2019-10-28 01:08:29
阅读次数:
582
1、kafka的message包括哪些信息 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。 当magic的值为1的时候,会在magic和crc3 ...
分类:
其他好文 时间:
2019-10-27 18:41:59
阅读次数:
92
1. HDFS架构是怎样的? hadoop1.x中采用master/slave架构,hdfs集群有一个namenode和多个datanode组成。 namenode namenode负责原数据的管理,包括文件目录和文件的元数据管理。 namenode文件到block块位置的映射,namenode并不 ...
分类:
其他好文 时间:
2019-10-27 18:39:03
阅读次数:
100
1、安装jdk 2、配置java环境变量 3、配置ssh免密钥登陆 4、解压hadoop安装包 5、配置hadoop环境变量 6、hadoop的java环境变量配置 7、配置core-site.xml 8、配置hdfs-site.xml 9、配置slaves文件 10、格式化hdfs 11、启动集群 ...
分类:
其他好文 时间:
2019-10-27 16:57:48
阅读次数:
94