核心功能描述 应用程序通常会通过提供map和reduce来实现Mapper和Reducer接口,它们组成作业的核心。 Map是一类将输入记录集转换为中间格式记录集的独立任务。 这种转换的中间格式记录集不需要与输入记录集的类型一致。一个给定的输入键值对可以映射成0个或多个输出键值对。Hadoop .....
分类:
其他好文 时间:
2014-08-21 18:40:34
阅读次数:
756
HBase分布式集群环境搭建成功后,连续4、5天实验客户端Map/Reduce程序开发,这方面的代码网上多得是,写个测试代码非常容易,可是真正运行起来可说是历经挫折。下面就是我最终调通并让程序在集群上运行起来的一些经验教训。 一、首先说一下我的环境: 1,集群的环境配置请见这篇博文。 2,...
分类:
其他好文 时间:
2014-08-21 16:26:54
阅读次数:
366
基于mapreduce的大规模连通图寻找算法当我们想要知道哪些账号是一个人的时候往往可以通过业务得到两个账号之间有联系,但是这种联系如何传播呢?问题 已知每个账号之间的联系如:A BB CD EF CB G得到 对应的一个人的账号如:A B C F G为同一个人D E 为同一个人 ...
分类:
其他好文 时间:
2014-08-21 11:26:33
阅读次数:
237
以前写过一篇文章,介绍通过 Java 的 Runtime 类执行操作系统命令行程序:Java调用linux系统shell执行命令。最近项目中又有需要用这个方法,在使用过程中遇到了一些新的问题,感觉以前没有弄清楚,故在此做补充学习记录。
先说明一下这次的需求,在 Java 程序中控制 Hadoop 命令执行 MapReduce 作业,并获取其输出内容。本来没有什么特殊,但由于 MR 执行的...
分类:
编程语言 时间:
2014-08-20 16:24:02
阅读次数:
368
Mapreduce处理的数据必须具备的特点: --待处理的数据可以分解成许多小的数据集,而且每个数据集都可以完全并行的处理 计算模型的核心部分是map和Reduce函数: --这两个函数的功能由用户根据需要自己实现,只要能够按照用户自定义的规则, 将输入的键值对转换成另一批键值..
分类:
其他好文 时间:
2014-08-20 02:44:46
阅读次数:
213
hive mapreduce 都会转成java。所以要用的java分析工具。当看到map或reduce 阶段运行缓慢,我们去线上找到mapreduce的进程:
1. top 发现进程:
2. top -Hp 32486 找到进程中cpu或mem磁盘消耗最高的线程:
3. 用jstack主要用来查看某个Java进程内的线程堆栈信息:
bin/jstack -F 26510
...
分类:
其他好文 时间:
2014-08-19 19:14:35
阅读次数:
291
江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇非常有影响力的文章,各自是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机...
分类:
其他好文 时间:
2014-08-19 12:23:34
阅读次数:
199
作者系阿里巴巴集团1688技术部普通码农
引言
周末看到一篇不错的文章“Graph Twiddling in a MapReduce
world” ,介绍MapReduce下一些图算法的实现。文章语言质朴,介绍很多实用图优化技巧。文章2009年发表,至今已经被引用183次,足以证明这篇文章价值。目前这篇文章网上已经有人对这篇文章做了介绍,但仅介绍了其中最简单的两个算法,对其中的所做优化,并...
分类:
其他好文 时间:
2014-08-18 23:36:03
阅读次数:
444
Hadoop的各个组件是通过XML配置的。
2.0以后,配置文件的位置发生了小变化,我安装的Hadoop 2.4.1,配置文件的位置在$HADOOP_INSTALL/etc/hadoop/
在初期运行MapReduce DEMO时,我们只需关注三个基本配置就好:
core-site.xml
hdfs-site.xml
yarn-site.xml(2.0后的版本,MapReduce运行在y...
分类:
其他好文 时间:
2014-08-18 14:33:26
阅读次数:
272