cloudera公司发布的CDH集群,使用Cloudera Manager来管理整个集群,使用过程中主要涉及到几个关键概念:cluster、service、role、host。直接上图,直观理解几个概念。 cluster、service cluster顾名思义是集群,所有组件组合的集合,一个Clou ...
分类:
其他好文 时间:
2019-07-03 21:37:58
阅读次数:
127
hdfs基准测试:磁盘读写性能测试hadoopjar./hadoop-mapreduce-client-jobclient-2.7.2.3.jarTestDFSIO-read-nrFiles10-fileSize10MBhadoopjar./hadoop-mapreduce-client-jobclient-2.7.2.3.jarTestDFSIO-write-nrFiles10-fileSize
分类:
其他好文 时间:
2019-07-02 13:30:39
阅读次数:
171
一、高可用简介 二、集群规划 三、前置条件 四、集群配置 五、启动集群 六、查看集群 七、集群的二次启动 一、高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性 ...
分类:
其他好文 时间:
2019-06-25 09:44:28
阅读次数:
100
设置回滚点在本地运行时正常,在集群时就报错,后来是发现ceshi这个目录其他用户没有写的权限,修改其他用户的权限就好了 ...
分类:
其他好文 时间:
2019-06-13 20:52:53
阅读次数:
140
端口用途9000fs.defaultFS,如:hdfs://172.25.40.171:90009001dfs.namenode.rpc-address,DataNode会连接这个端口50070dfs.namenode.http-address50470dfs.namenode.https-addr ...
分类:
其他好文 时间:
2019-06-11 22:18:53
阅读次数:
198
HDFS安装-完全分布式 1、 先决条件 a) 三台机器(以上) b) 每台机器时间一致,相差30秒以内。 c) 必须有主机名和ip映射。 d) 必须有JDK1.7,并且JDK的环境变量必须配置好。 i. rpm -ivh jdk-7u79-linux-x64.rpm 安装jdk ii. 配置环境变 ...
分类:
其他好文 时间:
2019-06-11 20:56:09
阅读次数:
174
hadoophdfs 1. HDFS写流程 2. HDFS写流程 1. HDFS写流程 HDFS写流程 副本存放策略: 上传的数据块后,触发一个新的线程,进行存放。 第一个副本:与client最近的机器(基于性能考虑) 第二个副本:跨机器存放该副本(考虑数据安全性) 第三个副本:与第一个,第二个副本 ...
分类:
其他好文 时间:
2019-06-08 01:01:44
阅读次数:
90
一,简介 二,自定义分区规则 2.1 普通的分组TopN实现 2.2 自定义分区规则TopN实现 三,RDD的缓存 3.1 RDD缓存简介 3.2 RDD缓存方式 正文 一,简介 在之前的文章中,我们知道RDD的有一个特征:就是一组分片(Partition),即数据集的基本组成单位。对于RDD来说, ...
分类:
其他好文 时间:
2019-06-07 21:22:15
阅读次数:
111
一、zookeeper1、安装继续—>完成;二、HDFS1、安装继续—>完成;三、yarn、hive1、安装yarn继续—>完成;2、安装hive继续—>完成;3、测试hivehive> show tables;OKTime taken: 0.41 secondshive> create table... ...
分类:
其他好文 时间:
2019-06-06 15:46:38
阅读次数:
120
利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input ...
分类:
其他好文 时间:
2019-06-05 00:21:43
阅读次数:
100