输入:“用户—物品”评分矩阵
输出:(1)用户对某个物品喜欢程度的评分;(2)对于用户,n个推荐的物品列表
1. 基于用户的最近邻推荐(user-based cf)
算法基本假设:(1)如果用户过去有相似的偏好,那么他们未来也会有相似的偏好;(2)用户的偏好不随时间变化而变化
用户相似度计算:user-based cf中pearson相关系数比较好;item-bas...
分类:
其他好文 时间:
2014-12-03 00:25:30
阅读次数:
206
MinHash是用于快速检测两个集合的相似性的方法。改方法由Andrei Broder(1997)发明,并最初用于搜索引擎AltaVista中来检测重复的网页的算法。它同样可以用于推荐系统和大规模文档聚类中。我们先介绍Jaccard相似度量。对于两个集合A与B,Jaccard相似性系数可以定义为:容...
分类:
编程语言 时间:
2014-11-29 22:50:10
阅读次数:
513
从对推荐一无所知到做过几个推荐系统,再到完成一个推荐系统生态框架的设计,觉得是时候沉淀下来一些知识,然后继续找好吃的。《推荐系统随便谈》系列将从最简单的推荐系统说起,并随着业务需求增多和认识深入来复杂化系统设计,中间偶尔分享一些其他人的设计思路。 推荐,大家最熟悉的就是亚马逊的“看了这件商品的...
分类:
其他好文 时间:
2014-11-29 15:48:55
阅读次数:
141
来自:http://blog.csdn.net/heyutao007/article/details/8612906Mahout支持2种 M/R 的jobs实现itemBase的协同过滤I.ItemSimilarityJobII.RecommenderJob下面我们对RecommenderJob进行...
分类:
其他好文 时间:
2014-11-28 15:47:49
阅读次数:
255
之前对于推荐,一直都仅限于理论书籍,浅一点像《集体智慧编程》《推荐系统实践》,复杂的像《数据挖掘》《机器学习》,当然也没看太深入。当时对推荐系统的看法是,这是一个以算法为核心的系统,一切价值体现都在算法模型上了。不过这段时间有幸参与到真实系统,稍有改观。下最近的一些想法吧,当然作为一个系统开发人员,...
分类:
其他好文 时间:
2014-11-26 20:55:26
阅读次数:
255
Hadoop家族系列文章, 主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra...
分类:
其他好文 时间:
2014-11-26 14:09:05
阅读次数:
352
Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等Hadoop的核心是HDFS和mapreduce,两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。mapr...
分类:
其他好文 时间:
2014-11-26 13:48:30
阅读次数:
195
假设向量1为(a1,a2,...an)
向量2为(b1,b2,...bn)
1、欧式距离测度
公式为
d=sqrt((a1-b1)^2+(a2-b2)^2+…+(an-bn)^2)
mahout类为EuclideanDistanceMeasure
2、平方欧式距离测度
公式为
d=(a1-b1)^2+(a2-b2)^2+…+(an-bn)^2
mahout类为SquaredEuc...
分类:
其他好文 时间:
2014-11-23 20:17:54
阅读次数:
232
http://in.sdo.com/?p=1386引言在互联网上,信息的数量越来越大。用户可以选择的面也越来越广,推荐系统的任务是,要从众多的资讯中,过滤并挑选出符合每个用户口味的内容,推荐给不同用户。在这个过程中,对用户兴趣的刻画、建模是最为重要的一环。传统的用户兴趣刻画,大多集中于用户基本属性上...
分类:
其他好文 时间:
2014-11-22 15:57:47
阅读次数:
271
什么是推荐算法 推荐算法最早在1992年就提出来了,但是火起来实际上是最近这些年的事情,因为互联网的爆发,有了更大的数据量可以供我们使用,推荐算法才有了很大的用武之地。 最开始,所以我们在网上找资料,都是...
分类:
编程语言 时间:
2014-11-18 16:15:21
阅读次数:
581