向量之间的相似度
度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。
皮尔森相关系数计算公式如下:
分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。
因为,所以皮尔森相关系数计算公式还可以写成:
当两个变量的线性关系增强时,相关系数趋于1或-1。
用户评分预测
...
分类:
其他好文 时间:
2014-08-21 19:28:24
阅读次数:
796
Mahout基于推荐系统,分类,聚类算法等经常用到的相似度度量:PearsonCorrelationSimilarity皮尔森距离EuclideanDistanceSimilarity欧几里德距离CosineMeasureSimilarity余弦距离(0.7变成了UncenteredCosineSimilarity)SpearmanCorrelationSimilarity斯皮尔曼等级相关,排序..
分类:
其他好文 时间:
2014-08-13 19:22:58
阅读次数:
227
大数据下的游戏营销模式革新邓大付博士腾讯专家工程师Bio:毕业于华中科技大学,现任腾讯IEG运营部数据中心技术副总监,负责腾讯游戏的数据挖掘相关工作,包括有用户画像,推荐系统,基础算法研究等。主要感兴趣的领域包括有分布式计算平台系统架构,机器学习算法等。=======================...
分类:
其他好文 时间:
2014-08-13 00:42:25
阅读次数:
453
经过了2个月对机器学习的了解后,我发现了,机器学习的方向多种多样。网页排序,语音识别,图像识别,推荐系统等。算法也多种多样。看见其他的书后,我发现除了讲到的k均值聚类,贝叶斯,神经网络,在线学习等等,还有很多其他的算法。比如说:免疫算法,遗传算法,主成分分析,蚁群算法等等。好像很多算法都是需要做很多的研究才能用的很好的。据说深度学习是由神经网络升级来的。神经网络本身就是一本书,内容很多。龙星计划里...
分类:
其他好文 时间:
2014-08-12 00:39:33
阅读次数:
206
用户满意度描述用户对推荐结果的满意程度,这是推荐系统最重要的指标。一般通过对用户进行问卷或者监测用户线上行为数据获得。预测准确度描述推荐系统预测用户行为的能力。一般通过离线数据集上算法给出的推荐列表和用户行为的重合率来计算。重合率越大则准确率越高。覆盖率描述推荐系统对物品长尾的发掘能力。一般通过所有...
分类:
其他好文 时间:
2014-08-02 01:40:02
阅读次数:
196
推荐系统-从入门到精通为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(了解概念-入门篇)a) 个性化推荐系...
分类:
其他好文 时间:
2014-07-31 15:55:16
阅读次数:
198
1. Motivation2. MapReduceMapReduce是一种数据密集型并行计算框架。待处理数据以“块”为单位存储在集群机器文件系统中(HDFS),并以(key, value)的键值对形式保存。当任务启动时,系统将计算任务分配给存储数据的相应机器。MapReduce计算任务可以划分为两个...
分类:
其他好文 时间:
2014-07-28 15:16:13
阅读次数:
202
==============================================================场景:报表任务:不是实时报表,数据需要加工推荐系统:要求实时自己目前对于实时系统的知识不是太多,开发场景也比较少,所以仅仅是为了学习======================...
分类:
其他好文 时间:
2014-07-13 12:52:35
阅读次数:
406
关于多线程的知识,有非常多的资料可以参考。这里稍微总结一下,以求加深记忆。
关于多线程在日常工作中的使用:对于大多数的日常应用系统,比如各种管理系统,可能根本不需要深入了解,仅仅知道Thread/Runnable就够了;如果是需要很多计算任务的系统,比如推荐系统中各种中间数据的计算,对多线程的使用就较为频繁,也需要进行一下稍微深入的研究。...
分类:
编程语言 时间:
2014-07-11 00:55:45
阅读次数:
302
首先回顾一下,协同过滤算法主要有两种,一种是基于用户的协同过滤算法(UserCF),另一种是基于物品的协同过滤算法(ItemCF)。
基于用户的协同过滤算法主要有两步:
1)找到和目标用户兴趣相似的用户集合
2)找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。
基于物品的协同过滤算法主要有两步:
1)计算物品之间的相似度。
2)根据物品的相...
分类:
其他好文 时间:
2014-07-10 21:58:52
阅读次数:
341