通过hadoop中的MapReduce实现Apache日志中的IP个数统计,并将计算结果输出到mysql数据库中。...
分类:
数据库 时间:
2014-10-22 12:55:09
阅读次数:
419
1 gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。 缺点:不支持s...
分类:
其他好文 时间:
2014-10-20 15:28:34
阅读次数:
265
学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS。 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信得过他,于是会把自己家的粮食、农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着,等...
分类:
其他好文 时间:
2014-10-18 11:01:31
阅读次数:
255
Hadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。本文将介绍在优化Local Reads的一些方案。...
分类:
其他好文 时间:
2014-10-17 18:50:01
阅读次数:
310
根据超市的销售清单,采用hadoop中的mapreduce计算商品之间的关联程度(即统计同时买A商品和B商品的次数)...
分类:
其他好文 时间:
2014-10-17 15:38:03
阅读次数:
213
1、概念:
fsimage保存了最新的元数据检查点。
edits保存自最新检查点后的命名空间的变化。
2、工作原理:
从最新检查点后,hadoop将对每个文件的操作都保存在edits中,为避免edits不断增大,secondary namenode就会周期性合并fsimage和edits成新的fsimage,edits再记录新的变化。
这种机制有个问题:因edits存放在Name...
分类:
其他好文 时间:
2014-10-15 23:23:11
阅读次数:
392
hadoop中无法启动DataNode守护进程...
分类:
其他好文 时间:
2014-10-15 17:54:51
阅读次数:
166
本文章详细叙述了hadoop中SequenceFile的使用,包括普通的使用方法及在mapreduce中的使用...
分类:
其他好文 时间:
2014-10-13 16:11:19
阅读次数:
267
通过一下方式找到错误的原因,开启hadoop的调试信息[root@yts bin]# export HADOOP_ROOT_LOGGER=DEBUG,console这样在执行命令时,可以通过error字样定位执行命令时产生错误的原因[root@yts bin]# ./hadoop fs -mkdir...
分类:
其他好文 时间:
2014-10-08 16:05:45
阅读次数:
485