Dr.Elephant被定位成一个对Hadoop和Spark任务进行性能监控和调优的工具,它能够自动收集Hadoop平台所有的度量标准,并对收集的数据进行分析,最终以一种简单且易于理解的形式展示出来。Dr.Elephant的设计目的是通过指导Hadoop/Spark开发者对其任务进行便捷的优化,从而提高开发者的效率以及Hadoop集群的使用效率。在Dr.Elephant中定义了一系列的启发式算法(...
分类:
其他好文 时间:
2016-04-29 17:19:16
阅读次数:
184
HDFS系统架构 HDFS以流式数据访问(一次写入,多次读取)模式来存储超大文件,运行于商用硬件集群上。超大文件是指GB,TB,PB的文件。目前已经有存储到PB级别的Hadoop集群了。 计算机字节关系 Hadoop1.x HDFS官方架构图 HDFS中的概念 针对上图来分析HDFS中的各个概念。 ... ...
分类:
其他好文 时间:
2016-04-27 18:53:22
阅读次数:
242
1 环境描述 三台hadoop集群,分别是master、slave1和slave2。下面是这三台机器的软件分布: master:NameNode、ZK、HiveMetaSotre、HiveServer2、SentryServer slave1:DataNode、ZK slave2:DataNode、... ...
分类:
Web程序 时间:
2016-04-26 10:56:37
阅读次数:
966
Apache YARN(Yet Another Resource Negotiator)是一个HADOOP集群资源管理系统。YARN在HADOOP2
中引入,但是它足够通用,也支持其它的分布式计算程序。
YARN提供了用于请求和使用集群资源的API,但是这些API不是直接由用户代码使用的。用户写更高级的由
分布式计算框架提供的API,这些框架是建立在YARN之上的,对用户隐藏...
分类:
其他好文 时间:
2016-04-22 20:52:22
阅读次数:
288
使用Hadoop进行离线分析或者数据挖掘的工程师,经常会需要对Hadoop集群或者mapreduce作业进行性能调优。性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。本文将针对这一需求,基于Hadoop开发一个简单实用的工具查询查看各种参数。...
分类:
其他好文 时间:
2016-04-22 19:23:43
阅读次数:
152
由于需要安装hadoop集群,有10台机器需要安装,一开始打算用SCP复制,后来觉得不可接受(实际现场可能数倍的机器集群,就是10台也不想干)。后来在网上找了,发现了clustershell和pssh这两个工具。这两个工具随便用其中一个就可以了。 环境说明:centos6.5机器10台 需求:确定一... ...
分类:
系统相关 时间:
2016-04-19 10:13:28
阅读次数:
197
## 1. 搜索算法总体架构在上篇文章(工程篇)中, 我们介绍了有赞搜索引擎的基本框架. 搜索引擎主要3个部件构成. 第一, hadoop集群, 用于生成大规模搜索和实时索引; 第二, ElasticSearch集群, 提供分布式搜索方案; 第三, 高级搜索集群, 用于提供商业搜索的特殊功能. 商业... ...
分类:
编程语言 时间:
2016-04-18 01:12:30
阅读次数:
561
生产环境的搭建 Hadoop生产环境的配置 主机规划 这里我们使用5 台主机来配置Hadoop集群。 djt11/192.168.3.11 djt17/192.168.3.12 djt13/192.168.3.13 djt14/192.168.3.14 djt15/192.168.3.15 name ...
分类:
其他好文 时间:
2016-04-16 23:02:52
阅读次数:
717
一、把数据从HDFS抽取到RDBMS
1. 从下面的地址下载示例文件。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=1327067858000
2. 用下面的命令把解压缩后的weblogs_aggregate.txt文...
分类:
其他好文 时间:
2016-04-16 19:33:03
阅读次数:
198
Class ClusterStatus
====================================================================
ClusterStatus provides clients with information such as:
Size of the cluster.Name of the trackers.Task c...
分类:
其他好文 时间:
2016-04-15 00:44:00
阅读次数:
175