很久以前为了满足公司的需求写过一些自定义InputFormat,今天有时间拿出来记一下 ? ? 需求是这样的,如果如果使用FileInputFormat作为输入,是按照行来读取日志的,也就是按照\n来区分每一条日志的,而由...
分类:
其他好文 时间:
2014-11-13 13:08:35
阅读次数:
124
上传两个文件到hdfs上的input文件夹下
代码如下:
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io...
分类:
系统相关 时间:
2014-11-10 13:47:40
阅读次数:
179
对于上一篇hadoop mapreduce 多文件输出,有一些地方介绍的不准确,这里做个续简单更正一下,同时正好解决了上一篇的不能多文件夹输出的问题 ? ? 1、针对于上一篇代码中的?MultipleOutputs.addNamedOut...
以下是自定义的一个数据类型,有两个属性,一个是名称,一个是开始点(可以理解为单词和单词的位置)MR程序就不写了,请看WordCount程序。package cn.genekang.hadoop.mr.RealignerTargetCreator;import java.io.DataInput;im...
分类:
其他好文 时间:
2014-10-31 19:00:13
阅读次数:
136
目的: 使用命令行接口运行Mini集群,用户可以使用一个简单的命令启动或者停止一个单节点的Hadoop集群,不需要设置任何环境变量和管理配置文件。这个CLI Mini集群将会启动Yarn/MapReduce和HDFS。 这个案例适合想要...
分类:
其他好文 时间:
2014-10-31 13:58:20
阅读次数:
257
su-hdfsPIEstimatorTesting:timehadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarpi10100TeraGen/TeraSort/TeraValidateTesting:1.timehadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarteragen..
分类:
其他好文 时间:
2014-10-28 10:29:47
阅读次数:
152
??
一、从Map到Reduce
MapReduce其实是分治算法的一种实现,其处理过程亦和用管道命令来处理十分相似,一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代,从处理流程的角度来看大概如下:
cat input | grep | sort | uniq -c | cat > output
# Input -> Map -> Shuffle & Sort -> R...
分类:
其他好文 时间:
2014-10-26 17:06:35
阅读次数:
278
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hiv.....
分类:
其他好文 时间:
2014-10-24 14:23:25
阅读次数:
201
1、 当我们编写好MapReduce程序,点击Run on Hadoop的时候,Eclipse控制台输出如下内容: 这个信息告诉我们没有找到log4j.properties文件。如果没有这个文件,程序运行出错的时候,就没有打印日志,因此我们会很难...
分类:
系统相关 时间:
2014-10-21 23:22:47
阅读次数:
501
package chapter1;
import java.io.IOException;
import java.text.DateFormat;
import java.text.SimpleDateFormat;
import java.util.Date;
import org.apache.hadoop.conf.Configuration;
impo...
分类:
其他好文 时间:
2014-10-19 23:25:14
阅读次数:
399