MapReduce源码分析之MapTask详解的后半段文章。在分析过程中我们知道了MapTask是如何使用循环缓存区管理数据,知道了数据在缓存不下是如何做spill处理的,spill输出的数据格式,combiner如何处理,如何将多一个文件merge为一个等等。也希望通过阅读这部分源码能学习到部分设计思路,能在未来的设计中提供多一种思路。...
分类:
其他好文 时间:
2014-08-05 00:47:18
阅读次数:
484
1.好久没用log4j了,转到logback好多年了,hbase程序运行时,报缺少log4j配置,那么,就转去logback吧(以下的XXX表示版本号)。 原先lib包里面有log4j-XXX.jar、slf4j-api-XXX.jar、slf4j-log4j12-XXX.jar,干掉log4...
今天做的就是将fpg跑出来的结果进行各种指标计算,但是因为用python还是不是特别熟悉,因为没有找到python能处理类似SequenceFile这样的类库,所以就用java编写,这下就是折腾各种包引用,就是classpath的引用。由于涉及到hadoop和mahout的包,这样需要添加到cl.....
分类:
其他好文 时间:
2014-08-05 00:30:28
阅读次数:
239
翻译自cloudera,原文直通车:Apache HBase Write Path Apache HBase也就是Hadoop Database是基于HDFS之上的.HBase可以随机获取和更新存储在HDFS上的记录。但是HDFS 上的文件只能追加而且一旦创建便无法修改。说到这里你或许会问:那HBa...
分类:
其他好文 时间:
2014-08-04 21:20:57
阅读次数:
264
最近在线上往hbase导数据,因为hbase写入能力比较强,没有太在意写的问题。让业务方进行历史数据的导入操作,中间发现一个问题,写入速度太快,并且业务数据集中到其中一个region,这个region无法split掉,处于不可用状态。这里描述一整个过程—— 事情的起因:业务方按照userid和...
分类:
其他好文 时间:
2014-08-04 21:10:47
阅读次数:
297
首先所有的输入格式都继承FileInputFormat,对于TextFile和SequenceFile有对应的TextInputFormat和SequenceFileInputFormat。我们先来看一下TextInputFormat的实现:publicclassTextInputFormatextendsFileInputFormat<LongWritable,Text>
implementsJobConfigurable{
p..
分类:
其他好文 时间:
2014-08-04 18:17:29
阅读次数:
677
1、关闭集群 2、通过修改core-site.xml ??<property>
????<name>fs.checkpoint.period</name>
????<value>180</value><!--单位为秒-->
??</property>
??<property>
????<name>fs.checkpoint.d...
分类:
其他好文 时间:
2014-08-04 14:48:57
阅读次数:
202
第一个hands-on入门程序:参考http://blog.csdn.net/sim_szm/article/details/12578055搭建环境并跑WordCount程序,区别是我安装的是最新的hadoop版本0.23.11,JDK我使用的是SunJDK,Linux使用的是国产的Kylin。问题一:Error:JAVA_HOMEisnotsetandcouldnotbefound.解决方案:/..
分类:
其他好文 时间:
2014-08-04 14:39:48
阅读次数:
219