1.hadoop的分布式安装过程
1.1 分布结构
主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode
从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker
1.2 各节点重新产生ssh加...
分类:
其他好文 时间:
2015-06-03 23:32:38
阅读次数:
151
重新格式化hdfs系统的方法:
(1)查看hdfs-ste.xml:
dfs.name.dir
/home/hadoop/hdfs/name
namenode上存储hdfs名字空间元数据
dfs.data.dir
/home/hadoop/hdsf/data
datanode上数据块的物理存储位置
将 dfs.name.dir所指定的目录删除、dfs.dat...
分类:
其他好文 时间:
2015-06-03 23:29:41
阅读次数:
195
集群的概念
计算机集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。
集群系统中的单个计算机通常称为节点,通常通过局域网连接。
集群技术的特点:
1、通过多台计算机完成同一个工作。达到更高的效率
2、两机或多机内容、工作过程等完全一样。如果一台死机,另一台可以起作用
集群模式安装步骤
(在伪分布模式下...
分类:
其他好文 时间:
2015-06-01 22:40:30
阅读次数:
236
通过Hadoop的自定义排序算法可实现从海量数字中获取最大值,不多说,直接上代码
1、Mapper类的实现
static class MyMapper extends Mapper{
long max = Long.MIN_VALUE;
protected void map(LongWritable k1, Text v1, Context context) throws ja...
分类:
其他好文 时间:
2015-05-31 14:07:01
阅读次数:
212
不多说,直接上代码,大家都懂得
1、Mapper类的实现
/**
* Mapper类的实现
* @author liuyazhuang
*
*/
static class MyMapper extends Mapper{
protected void map(LongWritable key, Text value, org.apache.hadoop.mapred...
分类:
其他好文 时间:
2015-05-31 14:02:10
阅读次数:
230
要求首先按照第一列升序排列,当第一列相同时,第二列升序排列;不多说直接上代码
1、Mapper类的实现
/**
* Mapper类的实现
* @author liuyazhuang
*
*/
static class MyMapper extends Mapper{
protected void map(LongWritable key, Text value, org...
分类:
编程语言 时间:
2015-05-31 14:00:06
阅读次数:
123
Apache Drill可用于大数据的实时分析,引用一段介绍:
受到Google Dremel启发,Apache的Drill项目是对大数据集进行交互式分析的分布式系统。Drill并不会试图取代已有的大数据批处理框架(Big Data batch processing framework),如Hadoop MapReduce或流处理框架(stream processing framework)...
分类:
Web程序 时间:
2015-05-30 21:14:04
阅读次数:
247
一、Mapper类的实现
/**
* KEYIN 即k1 表示行的偏移量
* VALUEIN 即v1 表示行文本内容
* KEYOUT 即k2 表示行中出现的单词
* VALUEOUT 即v2 表示行中出现的单词的次数,固定值1
*/
static class MyMapper extends Mapper{
protected void map(LongWr...
分类:
其他好文 时间:
2015-05-29 10:09:21
阅读次数:
179
一、Mapper类的实现
static class MyMapper extends Mapper{
protected void map(LongWritable key, Text value, org.apache.hadoop.mapreduce.Mapper.Context context) throws IOException ,InterruptedException {...
分类:
其他好文 时间:
2015-05-29 10:06:31
阅读次数:
118
本文旨在提供一个Hadoop在运行的时候从命令行输入要统计的文件路径和统计结果的输出路径,不多说直接上代码
1、Mapper类的实现
/**
* KEYIN 即k1 表示行的偏移量
* VALUEIN 即v1 表示行文本内容
* KEYOUT 即k2 表示行中出现的单词
* VALUEOUT 即v2 表示行中出现的单词的次数,固定值1
*/
sta...
分类:
其他好文 时间:
2015-05-28 00:51:18
阅读次数:
219