使用hadoop实现IP归属地的统计,为分析用户的地区分布提供数据...
分类:
其他好文 时间:
2014-10-29 17:14:00
阅读次数:
263
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.ap...
分类:
其他好文 时间:
2014-10-29 16:38:29
阅读次数:
287
输入格式: A 1 B,C,D B 1 C,Dmap: B A 1/3 C A 1/3 D A 1/3 A |B,C,D C B 1/2 D B 1/2 B |C,Dreduce: B (1-0.85)+0....
分类:
其他好文 时间:
2014-10-29 16:14:31
阅读次数:
237
1. MapReduce与云计算 MapReduce是google的一个云计算模型。 云计算主要分为三个层次:IaaS、Paas、SaaS,即Infrastructure as a Service、Platform as a Service、Software as a Service,如图1所示。 ...
分类:
其他好文 时间:
2014-10-29 12:46:10
阅读次数:
651
设置Mapreduce的输入是HDFS上多个文件夹下的数据,输出分文件夹存储。
分类:
其他好文 时间:
2014-10-29 01:39:29
阅读次数:
241
阅读导读:
1.什么是聚类分析?
2.Mahout中的kmeans算法,默认的分融符是什么?
3.用kmeans算法得到的结果有什么特点?
1.
聚类算法kmeans
聚类分析是数据挖掘及机器学习领域内的重点问题之一,在数据挖掘、模式识别、决策支持、机器学习及图像分割等领域有广泛的应用,是最重要的数据分析方法之一。聚类是在给定的数据集合中寻找同类的数据子集合,每一...
分类:
其他好文 时间:
2014-10-29 00:25:22
阅读次数:
359
MapReduce:详解Shuffle过程【转】博客分类:mapreduceMapreduceITeye数据结构多线程Hadoop Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里...
分类:
其他好文 时间:
2014-10-29 00:04:12
阅读次数:
285
我们知道,在第一次海量数据批量入库时,我们会选择使用BulkLoad的方式。简单介绍一下BulkLoad原理方式:(1)通过MapReduce的方式,在Map或者Reduce端将输出格式化为HBase的底层存储文件HFile。(2)调用BulkLoad将第一个Job生成的HFile导入到相应的HBa...
分类:
其他好文 时间:
2014-10-28 15:08:05
阅读次数:
273
su-hdfsPIEstimatorTesting:timehadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarpi10100TeraGen/TeraSort/TeraValidateTesting:1.timehadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarteragen..
分类:
其他好文 时间:
2014-10-28 10:29:47
阅读次数:
152
一、初级班全套视频1、linux使用(3节)2、伪分布模式安装hadoop(2节)3、HDFS的体系结构和操作(2节)4、HDFS的java操作方式(4节)5、代码二、中级班全套视频1、MapReduce入门(2节)2、MapReduce的源码简介和自定义类型(4节)3、mapReduce的剩余核心环节讲解(5节)4、Map..
分类:
其他好文 时间:
2014-10-28 02:14:00
阅读次数:
295