1、TF-IDF TF-IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。描述单个term与特定document的相关性。 TF(Term Frequency): 表示一个term与某个document的相关性。公.....
分类:
其他好文 时间:
2014-12-01 11:23:06
阅读次数:
251
一、Map任务的执行过程读取文件的内容,解析成key、value对,对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数写自己的逻辑,对输入的key、value处理,转换成新的key、value输出对输出的key,value进行分区对不同分区的数据,按照key进行排序分组,...
分类:
其他好文 时间:
2014-12-01 00:47:58
阅读次数:
180
在说Hadoop之前,先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜.....
分类:
其他好文 时间:
2014-11-30 21:26:35
阅读次数:
213
1.hbase利用hdfs作为其文件存储系统,利用mapreduce来处理数据,利用zookeeper作为协调工具
2.行键(row key),类似于主键,但row key是表自带的
3.列族(column family) ,列(也称作标签/修饰符)的集合,定义表的时候指定的,列是在插入记录的时候动态增加的
hbase表中的数据,每个列族单独一个文件
4.timestamp 是列的一个属性...
分类:
其他好文 时间:
2014-11-30 00:41:00
阅读次数:
158
从今天开始,开始研究学习Hadoop Common相关的源码结构。Hadoop Common在Hadoop1.0中是在core包下面的。此包下面的内容供HDFS和MapReduce公用,所以作用还是非常大的。Hadoop Common模块下的内容是比较多的。本人打算在后面的学习中挑选部分模块进行分析学习,比如他的序列化框架的实现,RPC的实现等等。我对此模块截出了一些图:...
分类:
其他好文 时间:
2014-11-29 09:02:17
阅读次数:
284
1、MapReduce代码入口FileInputFormat.setInputPaths(job, new Path(input)); //设置MapReduce输入格式job.waitForCompletion(true);2、InputFormat分析public abstract class ...
分类:
移动开发 时间:
2014-11-29 00:15:04
阅读次数:
200
package com.jumei.robot.mapreduce.tfidf;import java.io.IOException;import java.util.Collection;import java.util.Comparator;import java.util.Map.Entry;...
分类:
其他好文 时间:
2014-11-28 21:15:21
阅读次数:
475
MapReduce框架内置了一些计数器的支持,当然,我们也可以设置自己的计数器用来满足一些特殊的要求。其实计数器可以用来完成很多事,关键要看你如何用,例如你想知道map输入数据的指定记录特定的信息有多少可以设置计数,还有,在MR执行过程中,一些特定事件的发生次数也可以记录。使用计数器的莫大好处在于整...
分类:
其他好文 时间:
2014-11-27 23:29:49
阅读次数:
269
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtab...
分类:
系统相关 时间:
2014-11-27 22:00:10
阅读次数:
291
前言现今Spark正是风头正劲时,Spark本是UCBerkeley的AMPLab诞生的项目,后来捐赠给了Apache来管理源码和后续发展。今年从Apache孵化器终于孵化出了1.0版本。其对大数据的支持从内存计算和流处理,到交互式查询,一直到图计算和机器学习,可谓摆开了架势、拉长了战线,一方面挑战老前辈Hadoop和MapReduce,另一方面又随时准备迎接同样的后起之秀的挑战。大数据的今天今天...
分类:
其他好文 时间:
2014-11-27 20:30:03
阅读次数:
251