Mahout基于推荐系统,分类,聚类算法等经常用到的相似度度量:PearsonCorrelationSimilarity皮尔森距离EuclideanDistanceSimilarity欧几里德距离CosineMeasureSimilarity余弦距离(0.7变成了UncenteredCosineSimilarity)SpearmanCorrelationSimilarity斯皮尔曼等级相关,排序..
分类:
其他好文 时间:
2014-08-13 19:22:58
阅读次数:
227
原文地址http://blog.sina.com.cn/s/blog_62186b460101ard2.html这里只是将比较重要的部分转一下另外还有一篇关于层次聚类的http://blog.csdn.net/jwh_bupt/article/details/7685809聚类分析就仅根据在数据中发...
分类:
数据库 时间:
2014-08-08 17:40:26
阅读次数:
425
这个暂时还不太明白,先写一点明白的。EM:最大期望算法,属于基于模型的聚类算法。是对似然函数的进一步应用。我们知道,当我们想要估计某个分布的未知值,可以使用样本结果来进行似然估计,进而求最大似然估计就可以估计出要求的参数。但是有时候还会有未知参数,这样就不能使用极大似然估计。当然这个参数与我们要估计...
分类:
其他好文 时间:
2014-08-05 18:17:09
阅读次数:
180
一,引言
之前几个章节讨论的都是监督聚类,从本章开始讨论非监督聚类,即训练模式不带标签的情形。
聚类的步骤:
1,特征选择。选取最能够表示我们目标物体信息的特征。
2,相似性度量。给出两个特征量相似点或者不想似的地方。
3,聚类标准。聚类标准。可能由损耗函数(cost function)或者其他形式表达。
4,聚类算法。根据相似性度量和聚类标准,阐明数据的结构。
5,...
分类:
其他好文 时间:
2014-07-28 16:10:33
阅读次数:
181
——转 聚类的目标是使同一类对象的相似度尽可能地小;不同类对象之间的相似度尽可能地大。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。--....
分类:
其他好文 时间:
2014-07-23 15:24:26
阅读次数:
316
Graph-Based Segmentation 是经典的图像分割算法,作者Felzenszwalb也是提出DPM算法的大牛。该算法是基于图的贪心聚类算法,实现简单,速度比较快,精度也还行。不过,目前直接用它做分割的应该比较少,毕竟是99年的跨世纪元老,但是很多算法用它作垫脚石,比如Object Propose的开山之作《Segmentation as Selective Search for Object Recognition》就用它来产生过分割(oversegmentation)。还有的语义分割(se...
分类:
其他好文 时间:
2014-07-21 22:47:07
阅读次数:
406
继上篇的kmeans聚类算法,本文讲解了和Kmeans极为类似的kmediod聚类算法,分析了其异同及优缺点,并通过matlab代码实现了kmediod.代码中仍有bug.希望有大神能帮忙看看到底是收敛时间过长导致程序不终止还是代码本身的问题....
分类:
其他好文 时间:
2014-07-21 22:36:13
阅读次数:
580
本文讲解了大数据聚类算法中的一种clara.并通过matalb实例代码实现验证算法...
分类:
其他好文 时间:
2014-07-21 22:28:27
阅读次数:
248
此文用matlab实现了k-means聚类算法,虽然代码仍然有bug,但是就结果来说还是很正确的.通读此文对kmeans聚类算法有了更清晰的认识....
分类:
其他好文 时间:
2014-07-21 16:47:54
阅读次数:
312
在 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我们给出了GMM算法的基本模型与似然函数,在EM算法原理中对EM算法的实现与收敛性证明进行了具体说明。本文主要针对怎样用EM算法在混合高斯模型下进行聚类进行代码上的分析说明。1. GM...
分类:
其他好文 时间:
2014-07-18 19:25:06
阅读次数:
204