在使用mahout之前要安装并启动hadoop集群
将mahout的包上传至linux中并解压即可
mahout下载地址:
点击打开链接
mahout中的算法大致可以分为三大类:
聚类,协同过滤和分类
其中
常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等
常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等
...
分类:
编程语言 时间:
2015-04-11 09:04:31
阅读次数:
328
2.4 评估查准率(precision)和召回率(recall) 我们可以从更广义的角度去看待推荐问题:它并不是严格的要去估计偏好指数来提供推荐结果,也不总是要向用户提供准确的偏好指数的值。很多时候,我们只需从好到坏列出推荐排序,事实上,有些时候我们只需列出很少一部分排名考前的就可以了。 这样来看,...
分类:
其他好文 时间:
2015-04-10 09:29:24
阅读次数:
179
2.3 评估推荐器 推荐器是一个工具,它用来解决"如何为一个用户给出最好的推荐"这样的问题。在得出结果之前,最好先弄清楚问题。究竟怎样才是一个好的推荐结果?我们如何才能得出这样的结果?这一章剩下的部分将停下来探索推荐器的评估,因为这是用来了解特定推荐器的有力工具。 最理想的推荐器会像巫师一样某明奇妙...
分类:
其他好文 时间:
2015-04-10 09:26:52
阅读次数:
132
2推荐器的介绍 本章概要: Mahout中的推荐器 推荐器实战一瞥 推荐引擎精度与质量评估 基于一个真实数据集的测试:GroupLens 每天我们都会对一些喜欢的、不喜欢的甚至不关心的事物进行一些评价。这中行为往往是无意识的。你在收音机上听到一首歌,你可能会因为它的美妙或者难听而注意到它,也可能直接...
分类:
其他好文 时间:
2015-04-09 21:39:21
阅读次数:
162
YARN的Shell操作与管理7.1启动YARNYARN有2个守护线程:ResourceManager、NodeManager。[hadoop@localhosthadoop-2.2.0]$sbin/yarn-daemon.shstartresourcemanager[hadoop@localhosthadoop-2.2.0]$sbin/yarn-daemon.shstartnodemanager7.2YARNWeb管理界面YARN管理地址:Resource..
分类:
其他好文 时间:
2015-04-07 19:59:25
阅读次数:
305
HDFS的Shell操作与管理6.1启动HDFSStep01:格式化NameNode[hadoop@hadoop-yarnhadoop-2.2.0]$bin/hdfsnamenode–format说明:namenode在格式化的时候会产生一个ClusterID。也可以在格式化的时候自定义指定ID:bin/hdfsnamenode–format–clusteridyarn-clusterStep02:启动Nam..
分类:
系统相关 时间:
2015-04-07 19:58:53
阅读次数:
326
1.1Hadoop简介从Hadoop官网获得Hadoop的介绍:http://hadoop.apache.org/(1)WhatIsApacheHadoop?TheApacheHadoopprojectdevelopsopen-sourcesoftwareforreliable,scalable,distributedcomputing.TheApacheHadoopsoftwarelibraryisaframeworkthatallowsforthedistributedprocess..
分类:
Web程序 时间:
2015-04-07 19:58:46
阅读次数:
183
2.1下载地址1、ApacheHadoop(100%永久开源)下载地址:-http://hadoop.apache.org/releases.html-SVN:http://svn.apache.org/repos/asf/hadoop/common/branches/2、CDH(ClouderaDistributedHadoop,100%永久开源)下载地址:-http://archive.cloudera.com/cdh4/cdh/4/(是ta..
分类:
其他好文 时间:
2015-04-07 19:58:25
阅读次数:
363
Mahout主要有协同过滤、聚类和分类三种算法的实现。现在我们就用Mahout来实现经典的Kmeans聚类算法。并且在Hadoop平台上跑出个结果!...
分类:
编程语言 时间:
2015-04-05 16:03:20
阅读次数:
329
本文总结了多种推荐场景中的注意事项,或者推荐中比较关键的因素,不涉及算法描述,仅仅说明关注点,仅供参考。
推荐算法有很多种,从算法的角度来说,我认为主要由以下几种:协同过滤系列(基于item和user),机器学习分类系列(喜欢和不喜欢二分类,或者回归中的分值代表喜欢程度),矩阵分解系列(mahout ALS算法,netflix举行推荐大赛获奖算法),关联规则(电商常用)。本文将从以上几种系列进行总结。...
分类:
编程语言 时间:
2015-04-03 17:31:18
阅读次数:
251