K-means算法
一般情况,聚类算法可以划分为以下几类:划分方法(partitioning method)、层次方法(hierarchical
methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(model-based
methods).k-means算法属于划分方法中的一种。 K-me...
分类:
编程语言 时间:
2014-11-05 13:05:07
阅读次数:
307
前面介绍了k-means算法,并列举了该算法的缺点。而K中心点算法(K-medoids)正好能解决k-means算法中的 “噪声”敏感这个问题。
如何解决的呢?
首先,我们得介绍下k-means算法为什么会对“噪声”敏感。还记得K-means寻找质点的过程吗?对某类簇中所有的样本点维度求平均值,即获得该类簇质点的维度。当聚类的样本点中有“噪声”(离群点)时,在计算类簇质点的过程中会受到...
分类:
编程语言 时间:
2014-11-05 13:02:45
阅读次数:
204
层次聚类算法:
前面介绍的K-means算法和K中心点算法都属于划分式(partitional)聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程,这两种方式分别称为凝聚和分裂。
凝聚层次算法:
初始阶段,将每个样本点分别当做其类簇,然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件。
分裂层次算法:
初始阶段,将所有的样本点当做同一类簇,然...
分类:
编程语言 时间:
2014-11-05 13:01:24
阅读次数:
284
一 什么是基于密度的聚类算法
由于层次聚类算法和划分式聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷,发现各种任意形状的聚类簇,开发出基于密度的聚类算法。这类算法认为,在整个样本空间点中,各目标类簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。
二 DBSCAN(Density-based Spatial ...
分类:
数据库 时间:
2014-11-05 13:00:41
阅读次数:
308
Arcgis for JS之Cluster聚类分析的实现(基于区域范围的)...
分类:
Web程序 时间:
2014-11-05 10:53:26
阅读次数:
335
转自http://blog.pluskid.org/?p=287如果说K-means和GMM这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类实际上可以说是一“类”算法。Sp...
分类:
其他好文 时间:
2014-11-04 16:43:16
阅读次数:
233
最近看到Andrew Ng的一篇论文,文中用到了Kmeans和DL结合的思想,突然发现自己对ML最基本的聚类算法都不清楚,于是着重的看了下Kmeans,并在网上找了程序跑了下。kmeans是unsupervised learning最基本的一个聚类算法,我们可以用它来学习无标签的特征,其基本思想如....
分类:
其他好文 时间:
2014-11-04 10:36:13
阅读次数:
269
参考了许多资料加上个人理解,对十大算法进行如下分类:
?分类算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM
?聚类算法:KMeans
?统计学习:EM
?关联分析:Apriori
?链接挖掘:PageRank...
分类:
编程语言 时间:
2014-11-03 11:32:18
阅读次数:
241
Kmeans算是是聚类中的经典算法,过程如下:
选择K个点作为初始质心
repeat
将每个点指派到最近的质心,形成K个簇
重新计算每个簇的质心
until 簇不发生变化或达到最大迭代次数
算法中的K需要人为的指定。确定K的做法有很多,比如多次进行试探,计算误差,得出最好的K。这样需要比较长的时间。我们可以根据Canopy算法来粗略确定K值(可以认为相等)。看一下Canopy算法的...
分类:
编程语言 时间:
2014-11-02 18:20:44
阅读次数:
312
Arcgis for JS之Cluster聚类分析的实现...
分类:
Web程序 时间:
2014-11-02 18:18:43
阅读次数:
327