码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
MapReduce ---- TD-IDF
1、TF-IDF TF-IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。描述单个term与特定document的相关性。 TF(Term Frequency): 表示一个term与某个document的相关性。公.....
分类:其他好文   时间:2014-12-01 11:23:06    阅读次数:251
005、Hadoop-MapReduce详解
一、Map任务的执行过程读取文件的内容,解析成key、value对,对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数写自己的逻辑,对输入的key、value处理,转换成新的key、value输出对输出的key,value进行分区对不同分区的数据,按照key进行排序分组,...
分类:其他好文   时间:2014-12-01 00:47:58    阅读次数:180
初探Hadoop
在说Hadoop之前,先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜.....
分类:其他好文   时间:2014-11-30 21:26:35    阅读次数:213
hbase原理
1.hbase利用hdfs作为其文件存储系统,利用mapreduce来处理数据,利用zookeeper作为协调工具 2.行键(row key),类似于主键,但row key是表自带的 3.列族(column family) ,列(也称作标签/修饰符)的集合,定义表的时候指定的,列是在插入记录的时候动态增加的 hbase表中的数据,每个列族单独一个文件 4.timestamp 是列的一个属性...
分类:其他好文   时间:2014-11-30 00:41:00    阅读次数:158
Hadoop Common 结构学习
从今天开始,开始研究学习Hadoop Common相关的源码结构。Hadoop Common在Hadoop1.0中是在core包下面的。此包下面的内容供HDFS和MapReduce公用,所以作用还是非常大的。Hadoop Common模块下的内容是比较多的。本人打算在后面的学习中挑选部分模块进行分析学习,比如他的序列化框架的实现,RPC的实现等等。我对此模块截出了一些图:...
分类:其他好文   时间:2014-11-29 09:02:17    阅读次数:284
MapReduce从输入文件到Mapper处理之间的过程
1、MapReduce代码入口FileInputFormat.setInputPaths(job, new Path(input)); //设置MapReduce输入格式job.waitForCompletion(true);2、InputFormat分析public abstract class ...
分类:移动开发   时间:2014-11-29 00:15:04    阅读次数:200
tf-idf hadoop map reduce
package com.jumei.robot.mapreduce.tfidf;import java.io.IOException;import java.util.Collection;import java.util.Comparator;import java.util.Map.Entry;...
分类:其他好文   时间:2014-11-28 21:15:21    阅读次数:475
【原创】MapReduce计数器
MapReduce框架内置了一些计数器的支持,当然,我们也可以设置自己的计数器用来满足一些特殊的要求。其实计数器可以用来完成很多事,关键要看你如何用,例如你想知道map输入数据的指定记录特定的信息有多少可以设置计数,还有,在MR执行过程中,一些特定事件的发生次数也可以记录。使用计数器的莫大好处在于整...
分类:其他好文   时间:2014-11-27 23:29:49    阅读次数:269
hbase shell基础和常用命令详解
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtab...
分类:系统相关   时间:2014-11-27 22:00:10    阅读次数:291
Spark发展现状与战线
前言现今Spark正是风头正劲时,Spark本是UCBerkeley的AMPLab诞生的项目,后来捐赠给了Apache来管理源码和后续发展。今年从Apache孵化器终于孵化出了1.0版本。其对大数据的支持从内存计算和流处理,到交互式查询,一直到图计算和机器学习,可谓摆开了架势、拉长了战线,一方面挑战老前辈Hadoop和MapReduce,另一方面又随时准备迎接同样的后起之秀的挑战。大数据的今天今天...
分类:其他好文   时间:2014-11-27 20:30:03    阅读次数:251
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!