关于SSH配置 在配置SSH的时候,要明白ssh_config主要负责ssh的客户端,sshd_config主要是负责服务器端配置;但是两者配置文件内容是一样的,处理方式是对于没有用的参数注释掉;其中有一项是PermitRootLogin,其实这一项是服务器端需要进行配置的,但我在ssh_confi ...
分类:
其他好文 时间:
2017-07-16 09:53:13
阅读次数:
161
Hadoop集群环境搭建配置 前言 Hadoop的搭建分为三种形式:单机模式、伪分布模式、完全分布模式,只要掌握了完全分布模式,也就是集群模式的搭建,剩下的两种模式自然而然就会用了,一般前两种模式一般用在开发或测试环境下,Hadoop最大的优势就是分布式集群计算,所以在生产环境下都是搭建的最后一种模 ...
分类:
其他好文 时间:
2017-07-08 20:22:37
阅读次数:
414
简介Ganglia可以监控分布式集群中硬件资源的使用情况,例如CPU,内存,网络等资源。通过Ganglia可以监控Hadoop集群在运行过程中对集群资源的调度,作为简单地运维参考。 环境搭建流程 1、我们先在主机master01上面搭建好Ganglia环境2、在master01主机上解压JDK和Ha... ...
分类:
其他好文 时间:
2017-07-05 17:35:53
阅读次数:
269
作者:Shu, Alison Hadoop作业性能调优的两种场景: 一、用户观察到作业性能差,主动寻求帮助。 (一)eBayEagle作业性能分析器 1. Hadoop作业性能异常指标 2. Hadoop作业性能调优7个建议 (二)其他參数调优方法 二、Hadoop集群报告异常,发现个别作业导致集群 ...
分类:
其他好文 时间:
2017-07-01 00:02:35
阅读次数:
246
greenplum是2(master)+7(segment)的集群规模 系统刚准备上线,是用来做统计数据库的,正在帮忙一个hadoop集群核对其数据的准确性,在这个greenplum库中入了清单数据 后检查分析是部分建表语句存在问题,没有指定字段做分布键,也没有指定其是随机分布,导致默认为第一个字段 ...
分类:
数据库 时间:
2017-06-30 13:45:41
阅读次数:
454
第一次跑mapreduce,记录遇到的几个问题,hadoop集群是CDH版本的,但我windows本地的jar包是直接用hadoop2.6.0的版本,并没有特意找CDH版本的 1.Exception in thread "main" java.lang.NullPointerException at ...
http://tech.meituan.com/namenode-restart-optimization.html 一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以 ...
分类:
其他好文 时间:
2017-06-25 19:33:18
阅读次数:
311
操作Hadoop集群 所有必要的配置完成后,将文件分发到所有机器上的HADOOP_CONF_DIR目录。这应该是所有机器上相同的目录。 一般来说,建议HDFS和YARN作为单独的用户运行。在大多数安装中,HDFS进程作为“hdfs”执行。YARN通常使用“纱线”帐户。 Hadoop启动 要启动Had ...
分类:
其他好文 时间:
2017-06-20 22:30:32
阅读次数:
155
一、SSH无密码登录原理 此操作是为了搭建hadoop集群进行的操作 Master(NameNode|JobTracker)作为客户端,要实现无密码公钥认证,连接到服务器Salve(DataNode|Tasktracker)上的时候,需要在Master上生成一个密钥对(公钥和私钥),当Master通 ...
分类:
系统相关 时间:
2017-06-19 18:39:48
阅读次数:
305
4. 集群搭建 4.1 HADOOP集群搭建 4.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群: 负责海量数据运算时的资 ...
分类:
其他好文 时间:
2017-06-17 15:06:05
阅读次数:
183