Ganglia环境搭建并监控Hadoop分布式集群
简介
Ganglia可以监控分布式集群中硬件资源的使用情况,例如CPU,内存,网络等资源。通过Ganglia可以监控Hadoop集群在运行过程中对集群资源的调度,作为简单地运维参考。
环境搭建流程
1、我们先在主机master01上面搭建好Ganglia环境
2、在master01主机上解...
分类:
其他好文 时间:
2016-05-12 18:08:59
阅读次数:
269
Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 下图为hadoop的生态系统: 2、HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年 ...
分类:
其他好文 时间:
2016-05-04 19:12:46
阅读次数:
155
Hadoop Hive sql语法详解 Hadoop Hive sql语法详解 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL ...
分类:
数据库 时间:
2016-04-30 13:01:11
阅读次数:
287
一、Hive是什么? Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 Hive SQL。
二...
分类:
其他好文 时间:
2016-04-29 19:39:54
阅读次数:
366
zookeeper 开源的hadoop 分布式协调服务,分布式服务可以基于他实现同步服务,配置维护和命名服务等。
为什么使用zookeeper:
大部分分布式应用需要一个主控,协调器或控制器来管理分布式的子进程(如资源,任务等)
协调程序的反复便携浪费,切难以形成通用,伸缩性好的协调器
提供分布式锁服务,用以协调分布式应用
优点:
实现最终一致性...
分类:
其他好文 时间:
2016-04-29 18:02:10
阅读次数:
187
一、背景 微博,一个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重。因此,我们引入了hadoop 分布式计算平台,对用户数据和内容数据进行分析和挖掘,作为广告推荐的基础。 二、问题及解决方 ...
分类:
其他好文 时间:
2016-04-29 01:36:40
阅读次数:
142
1.把插件hadoop-eclipse-plugin-2.6.2.jar拷贝到eclipse安装目录下的plugins中
2.重启一下Eclipse
配制hadoop
3.进入map/reduce视图模式
4.向hadoop分布式存储系统中存入数据
5.连接hadoop
6.创建hadoop工程
7.创建类MyWordCount.javapackage co...
zookeeper 开源的hadoop 分布式协调服务,分布式服务可以基于他实现同步服务,配置维护和命名服务等。
为什么使用zookeeper:
大部分分布式应用需要一个主控,协调器或控制器来管理分布式的子进程(如资源,任务等)
协调程序的反复便携浪费,切难以形成通用,伸缩性好的协调器
提供分布式锁服务,用以协调分布式应用
优点:
实现最终一致性...
分类:
其他好文 时间:
2016-04-26 20:23:42
阅读次数:
162
一、Hive是什么? Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 Hive SQL。
二...
分类:
其他好文 时间:
2016-04-23 12:01:58
阅读次数:
238
hdfs基本原理
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式...
分类:
其他好文 时间:
2016-04-22 19:23:02
阅读次数:
363