使用hadoop mapreduce已有些时日了,最近开始写一些自己的基础库。hadoop文件操作是必须的基本操作,使用文件操作命令往往比较繁琐,因此便写了一个简单的类。由于自己的基础库是根据自己的项目需求来写,因而并不完整。目前仅测试了最基本的上传、删除和下载操作,在后面的开发中会持续完善。现.....
分类:
其他好文 时间:
2015-09-24 12:27:13
阅读次数:
142
在Hadoop的MR程序开发中,经常需要统计一些map/reduce的运行状态信息,这个时候我们可以通过自定义Counter来实现,这个实现的方式是不是通过配置信息完成的,而是通过代码运行时检查完成的。 1、创建一个自己的Counter枚举类。enum PROCESS_COUNTER { ...
分类:
其他好文 时间:
2015-09-22 18:51:35
阅读次数:
244
其实就是从网络上copy的吧,在这里做一下记录这个是看一下有哪些测试方式:hadoop jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/jars/hadoop-mapreduce-client-jobclient-2.5.0-cdh5.3.6...
分类:
其他好文 时间:
2015-09-17 19:08:07
阅读次数:
275
前边,讲述了Hadoop的两大支柱HDFS和MapReduce,我们通过将大数据的数据文件放在HDFS上,利用Java编写Map-Reduce,来实现数据的各种分析,并预测一些东西,实现大数据的商业价值,从而也体现了Hadoop价值所在。 但是反观传统系统中,我们都是通过数据库进行数据分析的,例如关系型数据库:Oracle,SQL Server,mysql等,更进一步的通过NO SQL数据...
分类:
其他好文 时间:
2015-09-16 00:55:51
阅读次数:
276
上篇讲述了Hadoop的核心内容之一HDFS,是Hhadoop分布式的平台基础,而这讲的MapReduce则是充分利用Hdfs分布式,提高运行效率的算法模型 ,Map(映射)和Reduce(归约)两个主要阶段都以键值对作为输入和输出,我们需要做的就是对这些,value>做我们想要的处理。看似简单实则麻烦,因为这里太灵活多变。 一,好,首先来看下边两个图,看下mapreduce在Hadoo...
分类:
其他好文 时间:
2015-09-09 01:09:58
阅读次数:
272
1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海....
分类:
系统相关 时间:
2015-09-01 12:13:54
阅读次数:
185
概述
什么是Spark
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习...
分类:
其他好文 时间:
2015-08-31 13:39:50
阅读次数:
279
虽然有些时候是可以手动的逐个操作作业的执行,但是更为便捷的方式还是自动的生成一个自动化的执行序列。我们可以将MapReduce作业按照顺序链接在一起,用一个MapReduce的作业的输出作为下一个作业的输入,类似于Unix的管道。
测试的代码:a:主类Driver
import org.apache.hadoop.conf.Configuration;
import org.apache.hado...
分类:
其他好文 时间:
2015-08-27 00:30:06
阅读次数:
175
Hadoop Architecture 的简单介绍 HDFS MapReduce...
分类:
其他好文 时间:
2015-08-25 19:43:15
阅读次数:
146
说明:本文档为wordcount的mapreduce job编写及运行文档。
操作系统:Ubuntu14 x64位
Hadoop:Hadoop 2.7.0...
分类:
其他好文 时间:
2015-08-21 00:19:38
阅读次数:
214