基于SparkMLlib平台的协同过滤算法---电影推荐系统又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。说到推荐系统,大家可能立马会想到协同过滤算法。本文基于SparkMLlib平台实现一个向用户推荐电影的简单..
分类:
编程语言 时间:
2015-06-16 01:27:03
阅读次数:
44881
本文是Spark调研笔记的最后一篇,以代码实例说明如何借助Spark平台高效地实现推荐系统CF算法中的物品相似度计算。
在推荐系统中,最经典的推荐算法无疑是协同过滤(Collaborative Filtering, CF),而item-cf又是CF算法中一个实现简单且效果不错的算法。
在item-cf算法中,最关键的步骤是计算物品之间的相似度。本文以代码实例来说明如何利用Spark平台快速计算...
分类:
其他好文 时间:
2015-06-10 15:47:17
阅读次数:
155
《Recommender System An Introduction》。第四章,基于知识推荐。概要,能够以相对较小的代价获取和维护这些知识。可是,在一些场景下,比方房屋、汽车、计算机等商品,协同系统会由于评分数据少而效果不好;或者时间跨度因素也非常重要的情况,用户偏好随着各种状况而变化等;这些场景...
分类:
其他好文 时间:
2015-06-08 18:48:41
阅读次数:
3404
前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载...
分类:
编程语言 时间:
2015-05-28 16:02:07
阅读次数:
327
本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下:
1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海量的用户-电影-评分数据
2.我在一个电影网站上看了几部电影,并都为其做了评分操作(0-5分)
3.该电影网站的推荐系统根据我对那几部电影的评分,要预测出...
分类:
数据库 时间:
2015-05-27 22:56:56
阅读次数:
377
由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下:
import urllib
import os,re
import sys
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf-8")
def if_st...
分类:
其他好文 时间:
2015-05-26 09:10:41
阅读次数:
229
1、基于user的协同过滤: ????先挖掘出与用户相似兴趣的人群,再从这些相似人群中的人所喜欢的东西但是用户还没喜欢过的内容。? ????举个例子:对于做android开发的初学者来说,他想要知道android开发要...
分类:
其他好文 时间:
2015-05-22 15:22:20
阅读次数:
119
1、背景简介 互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(informationoverload)问题....
分类:
其他好文 时间:
2015-05-22 11:10:44
阅读次数:
297
今天有了一个想法,想自己用Python写一个新浪明星日志推荐系统
那么第一步要完成的工作就是获得新浪明星日志的数据,于是自己写了一个爬虫,实现的功能是爬取新浪明星日志的作者,推荐的文章链接,以及作者日志列表或者首页链接,具体程序如下:
# -*- coding: utf-8 -*-
"""
Created on Wed May 20 13:55:00 2015
@autho...
分类:
其他好文 时间:
2015-05-21 09:07:49
阅读次数:
296