jobtracker变成了ResourceManager和ApplicationMaster;
tasktraker变成了nodeManager
applicationMaster是一个可变更的部分,用户可以对不同的编程模型些自己的applicationMaster...
分类:
其他好文 时间:
2014-10-19 23:18:52
阅读次数:
196
接上篇3.Combiner操作前面讲完Map操作,总结一下就是:一个大文件,分成split1~5,对应于Map1~5,每一个Map处理一个split,每一个split的每一行,会用每一个Map的map方法去处理,经过上面操作,最终输出了5个中间结果。对于这5个中间结果的每一个来说,都有很多行,每一行...
分类:
其他好文 时间:
2014-10-19 18:28:49
阅读次数:
186
4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法開始和MapTask类似,包含initialize()初始化,依据情况看是否调用runJobCleanupT...
分类:
其他好文 时间:
2014-10-19 12:47:51
阅读次数:
224
上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥和小弟其实就是一台台的电脑,他们之间通过交换机,互相联系到了一起。 其实这位大哥和这群小弟不仅...
分类:
其他好文 时间:
2014-10-19 11:34:51
阅读次数:
155
前言 本文大致介绍下Hadoop的一些背景知识,为后面深入学习打下铺垫。什么是Hadoop Hadoop是一个开源分布式计算平台,它以HDFS文件系统和MapReduce计算架构为核心。 前者能够让用户使用一些廉价的硬件搭建出分布式系统,后者则能够让用户在不需要过多了解底层架构细节的情况下,开...
分类:
其他好文 时间:
2014-10-18 18:09:35
阅读次数:
231
hadoop常见错误集锦:
1.DataXceiver error processing WRITE_BLOCK operation
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: 192-168-11-58:50010:DataXceiver error processing WRITE_BLOCK operation sr...
分类:
其他好文 时间:
2014-10-17 15:39:14
阅读次数:
247
根据超市的销售清单,采用hadoop中的mapreduce计算商品之间的关联程度(即统计同时买A商品和B商品的次数)...
分类:
其他好文 时间:
2014-10-17 15:38:03
阅读次数:
213
引言
1.本文不描述MapReduce入门知识,这类知识网上很多,请自行查阅
2.本文的实例代码来自官网
http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
最后的WordCount v2.0,该...
分类:
其他好文 时间:
2014-10-16 20:49:43
阅读次数:
203
我们知道,在第一次海量数据批量入库时,我们会选择使用BulkLoad的方式。
简介一下BulkLoad原理方式:(1)通过MapReduce的方式,在Map或者Reduce端将输出格式化为HBase的底层存储文件HFile。(2)调用BulkLoad将第一个Job生成的HFile导入到对应的HBase表中。
ps:请注意(1)HFile方式是所有的加载方案里面是最快的,前提是:数据必须第一个导...
分类:
其他好文 时间:
2014-10-16 20:16:53
阅读次数:
283
Hadoop日志分析系统启动脚本
#!/bin/bash
#Flume日志数据的根目录
root_path=/flume
#Mapreduce处理后的数据目录
process_path=/process
#hive分区时间
partition=`date "+%Y-%m-%d"`
#获取前一小时的时间:/YYYY-MM-DD/HH
file_path=`date -d "1 hour ...
分类:
其他好文 时间:
2014-10-16 19:41:13
阅读次数:
202