码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
MapReduce的组合式,迭代式,链式
1.迭代式mapreduce ? ?? ???一些复杂的任务难以用一次MapReduce处理完成,需要多次 MapReduce 才能完成任务,例如Pagrank,K-means算法都需要多次的迭代,关于 MapReduce 迭代在Mahout中运用较多。有兴趣的...
分类:其他好文   时间:2014-11-12 19:53:00    阅读次数:175
mapreduce top n
在最初接触mapreduce时,top n 问题的解决办法是将mapreduce输出(排序后)放入一个集合中,取前n个,但这种写法过于简单,内存能够加载的集合的大小是有上限的,一旦数据量大,很容易出现内存溢出。 ? ...
分类:其他好文   时间:2014-11-12 19:50:39    阅读次数:135
流式 storm介绍
Storm是什么 如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。我们都知道,根据google mapreduce来实现的hadoop为我们提供了map, reduce原语,使我们的批处理...
分类:其他好文   时间:2014-11-12 19:31:07    阅读次数:260
大数据时代之hadoop(六):hadoop 生态圈(pig,hive,hbase,ZooKeeper,Sqoop)
hadoop是有apache基金会所开发的分布式系统基础架构,其主要提供了两方面的功能:分布式存储和分布式计算。其中分布式存储是分布式计算的基础,在hadoop的实现里面,提供了分布式存储的接口,并自己实现了一个分布式存储的实现即HDFS,但并不代表hadoop只支持HDFS这一中实现,其同时支持别的存储系统,并在别的存储系统上运行分布式计算程序(mapreduce)。     从开发角度来说,h...
分类:其他好文   时间:2014-11-11 09:22:37    阅读次数:239
大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk
作者 Jonathan Allen ,译者 张晓鹏  Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。 结合Hadoop使用Hunk Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可以分布在成千上万个复制的节点上。接下来是...
分类:其他好文   时间:2014-11-11 09:22:20    阅读次数:225
HBase 数据备份
HBase提供了备份的API,直接使用shell脚本调用就可以啦。具体命令如下: hbase org.apache.hadoop.hbase.mapreduce.Export 'user' /hbase_backup_set/20141110/user hbase org.apache.hadoop.hbase.mapreduce.Import 'user' /hbase_backup_set...
分类:其他好文   时间:2014-11-10 15:34:23    阅读次数:163
[Mapreduce]eclipse下写wordcount
上传两个文件到hdfs上的input文件夹下 代码如下: import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io...
分类:系统相关   时间:2014-11-10 13:47:40    阅读次数:179
hadoop-1.2.1分布式配置启动问题
关键配置(core-site.xml 和hdfs-site.xml)(这里只是针对与HDFS,没有启动MapReduce):core-site.xml fs.default.name hdfs://qzhong:8000 hdfs-site.xml dfs.name.dir /home/...
分类:其他好文   时间:2014-11-09 23:42:43    阅读次数:180
PeopleRank从社交网络中发现个体价值
阅读导读: 1.什么是PeopleRank? 2.PeopleRank和PageRank有什么区别? 3.PR分析微博数据时,如何对微博单个账号评分? 4.R语言如何递归计算矩阵特征值? 5.如何计算粉丝的关注度? 1. PeopleRank和PageRank PageRank让Google成为搜索领域的No.1,也是当今最有影响力的互联网公司之一,用技术创新改变人们...
分类:其他好文   时间:2014-11-09 18:05:01    阅读次数:249
用Mahout构建职位推荐引擎【一起学Mahout】
阅读导读: 1.如何设计职位推荐引擎的指标? 2.简述职位推荐引擎所需要的系统架构? 3.如何对推荐结果进行人工比较? 4.职位推荐引擎中什么情况的数据最好做排除? 1. Mahout推荐系统框架概述 Mahout框架包含了一套完整的推荐系统引擎,标准化的数据结构,多样的算法实现,简单的开发流程。Mahout推荐的推荐系统引擎是模块化的,分为5个主要部分组成:数据模...
分类:其他好文   时间:2014-11-08 23:43:08    阅读次数:501
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!