均移:指偏移的均值向量,是一种非参数技术 主要思想:首先随机选择一个初始的感兴趣区域(初始窗)并确定其重心,接下来,搜索周围点密度更大的感兴趣区域并确定其重心 重复上面的过程不断将均值移动直到收敛。均移方法中,需要确定多变量密度核估计器。其中,核函数的作用是是的随着特征点与均值的距离不同,对均值的便...
分类:
其他好文 时间:
2014-07-28 23:31:34
阅读次数:
278
一,引言
之前几个章节讨论的都是监督聚类,从本章开始讨论非监督聚类,即训练模式不带标签的情形。
聚类的步骤:
1,特征选择。选取最能够表示我们目标物体信息的特征。
2,相似性度量。给出两个特征量相似点或者不想似的地方。
3,聚类标准。聚类标准。可能由损耗函数(cost function)或者其他形式表达。
4,聚类算法。根据相似性度量和聚类标准,阐明数据的结构。
5,...
分类:
其他好文 时间:
2014-07-28 16:10:33
阅读次数:
181
算法简介:
K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中
对象相似度较小。
算法假设:
均方误差是计算群组分散度的最佳参数。
算法输入:
聚类个数k;...
分类:
其他好文 时间:
2014-07-28 00:03:39
阅读次数:
343
——转 聚类的目标是使同一类对象的相似度尽可能地小;不同类对象之间的相似度尽可能地大。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。--....
分类:
其他好文 时间:
2014-07-23 15:24:26
阅读次数:
316
在文本分类和聚类种,都会对文本进行切词分词,然后转化为向量,最后求其TFIDF值,余弦相似性等。
本文将介绍了WEKA源码中StringToWordVector中的源码知识,自己也可以基于这个类构建符合自己需求的StringToWordVector类。...
分类:
其他好文 时间:
2014-07-22 23:58:49
阅读次数:
640
Graph-Based Segmentation 是经典的图像分割算法,作者Felzenszwalb也是提出DPM算法的大牛。该算法是基于图的贪心聚类算法,实现简单,速度比较快,精度也还行。不过,目前直接用它做分割的应该比较少,毕竟是99年的跨世纪元老,但是很多算法用它作垫脚石,比如Object Propose的开山之作《Segmentation as Selective Search for Object Recognition》就用它来产生过分割(oversegmentation)。还有的语义分割(se...
分类:
其他好文 时间:
2014-07-21 22:47:07
阅读次数:
406
继上篇的kmeans聚类算法,本文讲解了和Kmeans极为类似的kmediod聚类算法,分析了其异同及优缺点,并通过matlab代码实现了kmediod.代码中仍有bug.希望有大神能帮忙看看到底是收敛时间过长导致程序不终止还是代码本身的问题....
分类:
其他好文 时间:
2014-07-21 22:36:13
阅读次数:
580
本文讲解了大数据聚类算法中的一种clara.并通过matalb实例代码实现验证算法...
分类:
其他好文 时间:
2014-07-21 22:28:27
阅读次数:
248
此文用matlab实现了k-means聚类算法,虽然代码仍然有bug,但是就结果来说还是很正确的.通读此文对kmeans聚类算法有了更清晰的认识....
分类:
其他好文 时间:
2014-07-21 16:47:54
阅读次数:
312
WEKA学习: CSVLoader按照自己需要加载文本数据,并且经StringToWordVector处理,应用于文本的分类和聚类。...
分类:
其他好文 时间:
2014-07-21 16:25:13
阅读次数:
433