在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼....
分类:
其他好文 时间:
2014-10-09 15:04:14
阅读次数:
191
常用相似性度量(距离 相似系数)在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,.....
分类:
其他好文 时间:
2014-09-05 19:48:51
阅读次数:
595
基于物品的推荐,是以物品的相似度为基础的。在mahout中意味着使用ItemSimilarity实现相似性度量,而不是UserSimilarity。他们分别是通过相似的用户和相似的物品。基于物品的:了解用户的喜好,并寻找相似的物品基于用户的:寻找相似的用户,并了解他们喜好什么。如果物品数比用户数少很...
分类:
其他好文 时间:
2014-08-05 13:55:29
阅读次数:
256
基于用户的推荐和基于物品的推荐两种算法,均依赖于两个事物(用户或物品)之间的相似性度量(等同性定义),相似性度量的方法:PearsonCorrealation皮尔逊相关系数,对数似然值Loglikelihood,斯皮尔曼相关系数SpearmanCorrelation,谷本系数TanimotoCoef...
分类:
其他好文 时间:
2014-08-04 14:15:27
阅读次数:
217
一,引言
之前几个章节讨论的都是监督聚类,从本章开始讨论非监督聚类,即训练模式不带标签的情形。
聚类的步骤:
1,特征选择。选取最能够表示我们目标物体信息的特征。
2,相似性度量。给出两个特征量相似点或者不想似的地方。
3,聚类标准。聚类标准。可能由损耗函数(cost function)或者其他形式表达。
4,聚类算法。根据相似性度量和聚类标准,阐明数据的结构。
5,...
分类:
其他好文 时间:
2014-07-28 16:10:33
阅读次数:
181
在目标检测过程中,常用的方法就是设置一个模板,以滑动窗口的形式遍历整幅源图像(待检测的图像);每次滑动都会产生一个和模板等大小的ROI图像,基于某种度量方式,计算模板与当前ROI图像的相似性度量值。这样遍历完整幅图像后就会形成一个图像,找出最大值对应的位置(x,y),它就是我们要寻找的目标的位置.....
分类:
其他好文 时间:
2014-07-27 10:27:12
阅读次数:
369
在做分类时常常需要估算不同样本之间的相似性度量(Similarity
Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。
本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼....
分类:
其他好文 时间:
2014-07-22 23:15:15
阅读次数:
302
之前写过一篇距离与相似性度量的blog,这里添加两个少见的相似性度量方法,并且再扩展一些东西。
Tanimoto系数由Jaccard系数扩展而来。用来计算稀疏非二值不平衡向量的相似性,类似cosine距离
Bregman距离是一个数学通式,许多的距离,如欧式距离,KL距离等等都可以有Bregman公式推导而来。...
分类:
其他好文 时间:
2014-06-08 15:34:45
阅读次数:
457