hadoop 处理日志
127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038
182.131.89.195 - - [03/Jul/2014:23:37:43 +0800] "GET / HTTP/1.0" 301 - 0.000
127.0.0.1 - -...
分类:
其他好文 时间:
2014-12-29 18:27:25
阅读次数:
125
之前跑了一下hadoop里面自带的例子,现在顺一下如何通过源代码来运行程序。我懒得装eclipse,就全部用命令行了。整体参考官网上的:http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-clie...
分类:
其他好文 时间:
2014-12-27 17:23:15
阅读次数:
150
本文发表于本人博客。今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区、排序、分组、规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码里面的WordCount例子中对LongWritable类型定义,它实现抽象接口WritableCom...
分类:
编程语言 时间:
2014-12-26 14:35:39
阅读次数:
256
1.[译]下一代的HadoopMapreduce–如何编写YARN应用程序http://www.rigongyizu.com/hadoop-mapreduce-next-generation-writing-yarn-applications/
分类:
其他好文 时间:
2014-12-25 18:42:21
阅读次数:
117
Windows下的 Eclipse上调试Hadoop2代码,所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件,并在运行Hadoop代码时出现了一系列的问题,搞了好几天终于能运行起代码。接下来我们来看看问题并怎么解决,提供给跟我同样遇到的问题作为参考。...
分类:
数据库 时间:
2014-12-20 16:57:19
阅读次数:
583
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据,则MapReduce为海量的数据提供了计算。Hadoop 容易开发和运行处理大...
分类:
其他好文 时间:
2014-12-19 10:07:54
阅读次数:
307
在概况(一)中,主要简单的对Yarn的情况作了简单的介绍,今天花一定时间在某些具体的模块上呈现以下Yarn的整体情况,帮助大家更好的理解Yarn。
1)ResourceManager
在Yarn的整体架构中,他用的也是Master/Slave架构,他的Slave是NodeManager,RM在Yarn中扮演着一个非常重要的角色,他是负责集群中所有资源的统一管理和分配的。他根据各个NM的资源汇报...
分类:
其他好文 时间:
2014-12-16 17:08:18
阅读次数:
178