1.迭代式mapreduce ? ?? ???一些复杂的任务难以用一次MapReduce处理完成,需要多次 MapReduce 才能完成任务,例如Pagrank,K-means算法都需要多次的迭代,关于 MapReduce 迭代在Mahout中运用较多。有兴趣的...
分类:
其他好文 时间:
2014-11-12 19:53:00
阅读次数:
175
在最初接触mapreduce时,top n 问题的解决办法是将mapreduce输出(排序后)放入一个集合中,取前n个,但这种写法过于简单,内存能够加载的集合的大小是有上限的,一旦数据量大,很容易出现内存溢出。 ? ...
分类:
其他好文 时间:
2014-11-12 19:50:39
阅读次数:
135
Storm是什么 如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。我们都知道,根据google mapreduce来实现的hadoop为我们提供了map, reduce原语,使我们的批处理...
分类:
其他好文 时间:
2014-11-12 19:31:07
阅读次数:
260
hadoop是有apache基金会所开发的分布式系统基础架构,其主要提供了两方面的功能:分布式存储和分布式计算。其中分布式存储是分布式计算的基础,在hadoop的实现里面,提供了分布式存储的接口,并自己实现了一个分布式存储的实现即HDFS,但并不代表hadoop只支持HDFS这一中实现,其同时支持别的存储系统,并在别的存储系统上运行分布式计算程序(mapreduce)。 从开发角度来说,h...
分类:
其他好文 时间:
2014-11-11 09:22:37
阅读次数:
239
作者 Jonathan
Allen ,译者 张晓鹏
Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic
MapReduce。
结合Hadoop使用Hunk
Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可以分布在成千上万个复制的节点上。接下来是...
分类:
其他好文 时间:
2014-11-11 09:22:20
阅读次数:
225
HBase提供了备份的API,直接使用shell脚本调用就可以啦。具体命令如下:
hbase org.apache.hadoop.hbase.mapreduce.Export 'user' /hbase_backup_set/20141110/user
hbase org.apache.hadoop.hbase.mapreduce.Import 'user' /hbase_backup_set...
分类:
其他好文 时间:
2014-11-10 15:34:23
阅读次数:
163
上传两个文件到hdfs上的input文件夹下
代码如下:
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io...
分类:
系统相关 时间:
2014-11-10 13:47:40
阅读次数:
179
关键配置(core-site.xml 和hdfs-site.xml)(这里只是针对与HDFS,没有启动MapReduce):core-site.xml fs.default.name hdfs://qzhong:8000 hdfs-site.xml dfs.name.dir /home/...
分类:
其他好文 时间:
2014-11-09 23:42:43
阅读次数:
180
阅读导读:
1.什么是PeopleRank?
2.PeopleRank和PageRank有什么区别?
3.PR分析微博数据时,如何对微博单个账号评分?
4.R语言如何递归计算矩阵特征值?
5.如何计算粉丝的关注度?
1.
PeopleRank和PageRank
PageRank让Google成为搜索领域的No.1,也是当今最有影响力的互联网公司之一,用技术创新改变人们...
分类:
其他好文 时间:
2014-11-09 18:05:01
阅读次数:
249
阅读导读:
1.如何设计职位推荐引擎的指标?
2.简述职位推荐引擎所需要的系统架构?
3.如何对推荐结果进行人工比较?
4.职位推荐引擎中什么情况的数据最好做排除?
1.
Mahout推荐系统框架概述
Mahout框架包含了一套完整的推荐系统引擎,标准化的数据结构,多样的算法实现,简单的开发流程。Mahout推荐的推荐系统引擎是模块化的,分为5个主要部分组成:数据模...
分类:
其他好文 时间:
2014-11-08 23:43:08
阅读次数:
501