将各个计算用户相似度的方法弄过来了,可以参考下。实际运行代码数据文件 intro.csv内容: 直接复制就行了1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107...
分类:
其他好文 时间:
2014-08-05 13:38:39
阅读次数:
415
今天做的就是将fpg跑出来的结果进行各种指标计算,但是因为用python还是不是特别熟悉,因为没有找到python能处理类似SequenceFile这样的类库,所以就用java编写,这下就是折腾各种包引用,就是classpath的引用。由于涉及到hadoop和mahout的包,这样需要添加到cl.....
分类:
其他好文 时间:
2014-08-05 00:30:28
阅读次数:
239
聚类: 是否可以将事物归为一个簇,完全取决于我们在考量它们之间相似性时所选择的特征参数。 聚类,就是将一个给定文档中的相似项目分成不同簇的过程,我们可以将这些簇看做一组簇内相似而簇间有别的项目的集合。 1、一个算法,将书组织在一起的方法 2、相似性和不相似性的概念 3、停止的条件 簇的中...
分类:
其他好文 时间:
2014-08-04 17:08:07
阅读次数:
172
基于用户的推荐和基于物品的推荐两种算法,均依赖于两个事物(用户或物品)之间的相似性度量(等同性定义),相似性度量的方法:PearsonCorrealation皮尔逊相关系数,对数似然值Loglikelihood,斯皮尔曼相关系数SpearmanCorrelation,谷本系数TanimotoCoef...
分类:
其他好文 时间:
2014-08-04 14:15:27
阅读次数:
217
数据集下载地址:http://grouplens.org/datasets/movielens/ 之前用的是100K的,现在需要下载MovieLens 10M,使用里面的ratings.dat前提:因为文件不符合mahout要求的文件输入格式,需要进行转换,但是example里提供了一个解析这个文件...
分类:
其他好文 时间:
2014-08-04 14:14:47
阅读次数:
476
Preference对象:单个用户Id,物品ID和偏好值,实现GenericPreferencePreferenceArray数组,单个用户所有偏好值数组,实现GenericPreferenceArray代码示例:package mahout;import org.apache.mahout.cf....
分类:
其他好文 时间:
2014-08-04 13:33:27
阅读次数:
196
使用GroupLens数据集ua.base这是一个tab分割的文件,用户Id,物品Id,评分(偏好值),以及附加信息。可用吗?之前使用的是CSV格式,现在是tsv格式,可用,使用FileDataModel对mahout推荐2中的评估程序使用这个数据集测试:package mahout;import ...
分类:
其他好文 时间:
2014-08-04 10:55:16
阅读次数:
764
系统数据监控。using System;using System.Collections.Generic;using System.Diagnostics;using System.Linq;using System.Text;using System.Threading;using Arch.CF...
分类:
其他好文 时间:
2014-08-04 10:51:27
阅读次数:
206
通过估计偏好值来生成推荐结果并非绝对必要。给出一个从优到劣的推荐列表对于许多场景都够用了,而不必包含估计的偏好值。查准率:在top结果中相关结果的比例查全率:所有相关结果,包含在top结果中的比例对上个例子进行测试:package mahout;import java.io.File;import ...
分类:
其他好文 时间:
2014-08-04 10:47:37
阅读次数:
241
设计好了一个推荐程序,如何来完成评估呢?一般是使用一个真实数据的样例作为测试数据来仿真,来看估计值和实际值的差别,0.0意味着完美的估计,就是没有差别。一是使用平均差值(直观,易于理解),一是使用均方根。针对mahout推荐1的推荐程序进行评估:package mahout;import java....
分类:
其他好文 时间:
2014-08-04 10:36:46
阅读次数:
323