0.前言 需求是这么来的,搭建了Storm集群进行协同过滤算法的计算性能测试,要求精度在毫秒(ms)级别。局域网内40个虚拟机节点,用 date 命令,精度上和效率上都不可行。所以,就搭建了 NTP 服务器。1.简介 简单的说就是选择几部主要主机 (Primary server) 调校时间,让这.....
分类:
系统相关 时间:
2015-04-13 18:29:04
阅读次数:
247
比如,对一本书的评分,下面列出两个描述方式,前者是我所提倡的,括号里的是豆瓣现在采用的。1分:我很不喜欢(很差)2分:我不喜欢(较差)3分:还行(还行)4分:我喜欢(推荐)5分:我非常喜欢(力荐) 一个显然的区别是:前者是从主观出发的,后者则主要是基于客观情况的。前者表达了自己对对象的喜好程度...
分类:
其他好文 时间:
2015-04-12 19:03:50
阅读次数:
111
在使用mahout之前要安装并启动hadoop集群
将mahout的包上传至linux中并解压即可
mahout下载地址:
点击打开链接
mahout中的算法大致可以分为三大类:
聚类,协同过滤和分类
其中
常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等
常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等
...
分类:
编程语言 时间:
2015-04-11 09:04:31
阅读次数:
328
算法步骤:1.计算物品相似度2.根据用户购买记录,推荐相似物品物品相似度定义:A. 购买i的人里面,有多少比例购买了j 缺点(推荐系统需要能挖掘长尾信息,此处若j很热门,则w趋向于很大,则买了i的人都会被推荐j,热门商品更加热门)B. 在A的基础上,加入了对热门物品j的惩罚C. 活跃用户的贡献度应该...
分类:
其他好文 时间:
2015-04-09 10:19:45
阅读次数:
159
原文作者:新浪微博@王小科科科本文由36大数据翻译组-大海翻译,转载必须获得本站、原作者、译者的同意,拒绝任何不表明译者及来源的转载!如何提高推荐算法的有效性?主要的方法是特征转化,模型选取,数据处理等等。降维是特征加工中的一个重要部分。这篇博文主要讲述如何利用降维方法来提高以用户为基础的协同过滤方...
分类:
其他好文 时间:
2015-04-08 06:29:12
阅读次数:
139
美团推荐算法实践楼主发表于 2015-1-23 13:33:23|查看: 328|回复: 0前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信...
分类:
编程语言 时间:
2015-04-07 21:29:00
阅读次数:
197
Collaborative Filtering协同过滤的主要目标:由于网络信息量的增多,用户往往被淹没在信息的海洋里,很难很轻易的找到自己感兴趣的topic。协同过滤就是为了把用户最可能感兴趣的信息推送给用户(Recommer system)。协同过滤的方法: model-base,user-bas...
分类:
其他好文 时间:
2015-04-06 15:39:52
阅读次数:
163
Netflix的推荐和个性化功能向来精准,前不久,他们公布了自己在这方面的系统架构。3月27日,Netflix的工程师Xavier Amatrain和Justin Basilico在官方博客发布文章,介绍了自己的个性化和推荐系统架构。文章开头,他们指出:要开发出这样的一个软件架构,能够处理海量现有数...
分类:
Web程序 时间:
2015-04-06 00:46:06
阅读次数:
241
Mahout主要有协同过滤、聚类和分类三种算法的实现。现在我们就用Mahout来实现经典的Kmeans聚类算法。并且在Hadoop平台上跑出个结果!...
分类:
编程语言 时间:
2015-04-05 16:03:20
阅读次数:
329
第 3 部分: 深入推荐引擎相关算法 - 聚类智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。 聚类 (Clusterin...
分类:
编程语言 时间:
2015-04-04 12:03:06
阅读次数:
145