协同过滤是通过将用户和其他用户和的数据进行对比来实现推荐。 我们不利用专家所给出的重要属性来描述物品从而计算他们之间的相似度,而是利用用户对他们的意见来计算相似度,这就是协同过滤中所使用的方法。它不关心物品的描述属性,而是严格的按照许多用户的观点来计算相似度。 相似度的度量一种是欧式距离,一种是皮尔 ...
分类:
编程语言 时间:
2018-07-24 21:15:26
阅读次数:
171
Pearson相关系数解决了两个群的数据是否线性相关的问题; 先补充一下基本概念: 协方差:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的 ...
分类:
其他好文 时间:
2018-07-22 15:24:32
阅读次数:
215
2.1 协作型过滤 定义:对一大群人进行搜索,对这些人所偏爱的其他内容进行考察,并将他们组合起来构造出一个经过排名的推荐列表。 2.2 判断相似性 欧几里德距离 皮尔逊相关系数 定义:最佳拟合线(best-fit line)的相关系数(最小二乘法中的R) 计算公式 适用场景 非normalized ...
分类:
其他好文 时间:
2018-07-12 22:39:08
阅读次数:
128
一、协作型过滤 一个协作型过滤算法通常的做法是对一大群人进行搜索,并从中找出与我们品味相近的一群人。然后对这些人的偏好内容进行考查,并将它们组合起来构造出一个经过排名的推荐列表。 欧几里得距离评价 皮尔逊相关度评价 1.搜集偏好 2.寻找相近的用户 寻找相近用户可以使用不同的相似度评价值体系:这里介 ...
分类:
其他好文 时间:
2018-06-24 11:31:54
阅读次数:
154
提供推荐——协作型过滤 一、协作型过滤 一个协作型过滤算法通常的做法是对一大群人进行搜索,并从中找出与我们品味相近的一群人。然后对这些人的偏好内容进行考查,并将它们组合起来构造出一个经过排名的推荐列表。 1. 搜集偏好 2. 寻找相近的用户 欧几里得距离评价 皮尔逊相关度评价 3. 为相近用户打分排 ...
分类:
其他好文 时间:
2018-06-18 19:20:37
阅读次数:
188
地铁是怎样建成的? 1.地铁的诞生 19世纪中叶,英国伦敦街头交通堵塞严重。一位名叫查尔斯.皮尔逊的律师想到火车跑得很快,怎样让火车跑进城市呢?一次,查尔斯看到墙角的老鼠洞里,一只老鼠在跑来跑去,他提出一个妙想:让火车在地下跑起来!1863年,这个“异想天开”得以实现——世界上第一条地铁在伦敦诞生了 ...
分类:
其他好文 时间:
2018-06-10 19:31:17
阅读次数:
174
在进行特征选择的时候我们要衡量特征和我们的目标之间的相似性,有很多的方法可以衡量,下面介绍一些使用filter特征选择方法的时候能够使用的方法。filter特征选择方法是:特征选择的过程和模型的训练过程没有直接关系,使用特征本身的信息来进行特征选择。 参考这篇文章给出下图所示的特征度量方法: 1:相 ...
分类:
其他好文 时间:
2018-04-28 23:47:46
阅读次数:
420
注:点估计是参数估计中的一种。点估计常用的方法有两种:矩估计和最大似然估计。之所以要做估计,最本质的问题是我们能获得的信息量(样本的数量)有限,因此只能在有限的信息中,用合理的方法、在可接受的精度或置信度下做近似计算,以便对总体有一个大概的认识,也就是将某种在有限样本下中获得的规律,泛化到更大的样本 ...
分类:
其他好文 时间:
2018-04-07 13:51:28
阅读次数:
175
皮尔逊相关系数理解有两个角度 其一, 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数 Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理) 标准差则等于变量减掉平均数的平方和, ...
分类:
其他好文 时间:
2018-03-03 14:08:08
阅读次数:
185
特征决定了最优效果的上限,算法与模型只是让效果更逼近这个上限,所以特征工程与选择什么样的特征很重要! 以下是一些特征筛选与降维技巧 # -*- coding:utf-8 -*- import scipy as sc import libsvm_file_process as data_process ...
分类:
其他好文 时间:
2018-02-12 20:13:37
阅读次数:
196