background:项目中的一个小工具,是一个Cron Job ,每天去搜集下服务器Hadoop Job的运行状态,并生成一份报告发送给整个Team,生产报告的同时把相关的日志文件保存到固定的一台机子上,方便以后查看和分析,因为生产环境上的Log只保存7天。问题:日志是保存上固定的目录下面,而且是...
分类:
数据库 时间:
2014-08-06 17:18:31
阅读次数:
360
《Hadoop高级编程——构建与实现大数据解决方案》有奖试读,点击查看图书详情...
分类:
其他好文 时间:
2014-08-06 14:55:41
阅读次数:
294
本文主要介绍nutch的五个环节中的最后一个流程update的具体执行流程。
分类:
其他好文 时间:
2014-08-06 14:37:51
阅读次数:
231
Commands useful for administrators of a hadoop cluster.balancerRuns a cluster balancing utility. An administrator can simply press Ctrl-C to stop the ...
分类:
其他好文 时间:
2014-08-06 08:24:11
阅读次数:
345
archiveCreates a hadoop archive【v.存档; n.档案文件;档案室; 】. More information can be found at Hadoop Archives.distcpCopy file or directories recursively. More...
分类:
其他好文 时间:
2014-08-06 08:23:31
阅读次数:
202
1 概述
为了增大并发性,Yarn采用事件驱动的并发模型,将各种处理逻辑抽象成事件和调度器,将事件的处理过程用状态机表示。什么是状态机?
如果一个对象,其构成为若干个状态,以及触发这些状态发生相互转移的事件,那么此对象称之为状态机。
处理请求作为某种事件发送到系统中,由一个中央调度器传递给对应的事件调度器,进而对事件进行处理,处理完成之后再次发送给中央调度...
分类:
其他好文 时间:
2014-08-05 22:34:40
阅读次数:
232
1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。2、算法思想实际上,...
分类:
其他好文 时间:
2014-08-05 22:28:20
阅读次数:
357
待处理事项列表技术类1、提升java基础(内部类、泛型、集合、多线程、xml、io、nio、网络编程)2、学习设计模式。3、学习nutch。4、了解集成的知识。5、学习Hadoop。6、深入理解java虚拟机。7、阅读好的开源代码并参与感兴趣的开源项目。8、学习python语言。9、玩转github...
分类:
其他好文 时间:
2014-08-05 22:22:10
阅读次数:
552
1.简单模式 这种模式,配置简单,使用简单。 core-site.xml添加 hadoop.security.authorization true hadoop.security.authentication s...
分类:
其他好文 时间:
2014-08-05 22:01:00
阅读次数:
202
TODO: 还有没搞清楚的地方。 1、为了方便演示,先做好namenode检查点的配置。见控制namenode检查点发生的频率。 2、启动hadoop,保证所有节点都正常。 3、将namenode节点上dfs.name.dir 指定目录(即 name 目录)中...
分类:
其他好文 时间:
2014-08-05 19:43:40
阅读次数:
197