2.1 Storm基本概念在运行一个Storm任务之前,需要了解一些概念:TopologiesStreamsSpoutsBoltsStream groupingsReliabilityTasksWorkersConfiguration Storm集群和Hadoop集群表面上看很类似。但是Hadoo....
分类:
其他好文 时间:
2015-11-28 10:33:52
阅读次数:
289
Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节...
分类:
其他好文 时间:
2015-11-27 17:16:59
阅读次数:
234
学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法:要么找多台机器来部署(常常找不到机器)或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……)。那么,问题来了!有没有更有可行性的办法?提到虚拟化,Docker最近很是火热!不...
分类:
其他好文 时间:
2015-11-24 17:25:22
阅读次数:
301
原文网址:http://www.csdn.net/article/1970-01-01/28246611.Hadoop在百度得使用 Hadoop在百度的应用领域主要包括:大数据挖掘与分析,日志分析平台,数据仓库系统,用户行为分析系统,广告平台等存储与计算服务。 目前百度的Hadoop集群规模已经超过...
分类:
其他好文 时间:
2015-11-18 16:21:14
阅读次数:
192
第131讲:Hadoop集群管理工具均衡器Balancer实战详解学习笔记为什么需要均衡器呢?随着集群运行,具体hdfs各个数据存储节点上的block可能分布得越来越不均衡,会导致运行作业时降低mapreduce的本地性。分布式计算中精髓性的一名话:数据不动代码动。降低本地性对性能的影响是致使的,而...
分类:
其他好文 时间:
2015-11-15 19:14:26
阅读次数:
197
第130讲:Hadoop集群管理工具DataBlockScanner实战详解学习笔记DataBlockScanner在datanode上运行的block扫描器,定期检测当前datanode节点上所有的block,从而在客户端读到有问题的块前及时检测和修复有问题的块。它有所有维护的块的列表,通过对块的...
分类:
其他好文 时间:
2015-11-15 17:50:38
阅读次数:
175
第126讲:Hadoop集群管理之Datanode目录元数据结构详解学习笔记namenode是管理hdfs文件系统的元数据datanode是负责当前节点上的数据的管理,具体目录内容是在初始阶段自动创建的。在用hdfsdfsnamenodeformat时并没有对datanode进行format。在da...
分类:
其他好文 时间:
2015-11-14 22:00:30
阅读次数:
391
第124讲:Hadoop集群管理之fsimage和edits工作机制内幕详解学习笔记客户端对hdfs进行写文件时会首先被记录在edits文件中。edits修改时元数据也会更新。每次hdfs更新时edits先更新后客户端才会看到最新信息。fsimage:是namenode中关于元数据的镜像,一般称为检...
分类:
其他好文 时间:
2015-11-14 19:23:49
阅读次数:
288
下载hive的安装包解压在hadoop集群上的任何一台机器上都可以mysqljdbc驱动拷贝到hive的lib目录下hive-env.shHADOOP_HOME=/opt/modules/hadoop-2.2.0修改hive-site.xml<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://loc..
分类:
数据库 时间:
2015-11-11 22:25:14
阅读次数:
309