Kmeans算是是聚类中的经典算法,过程如下:
选择K个点作为初始质心
repeat
将每个点指派到最近的质心,形成K个簇
重新计算每个簇的质心
until 簇不发生变化或达到最大迭代次数
算法中的K需要人为的指定。确定K的做法有很多,比如多次进行试探,计算误差,得出最好的K。这样需要比较长的时间。我们可以根据Canopy算法来粗略确定K值(可以认为相等)。看一下Canopy算法的...
分类:
编程语言 时间:
2014-11-02 18:20:44
阅读次数:
312
在学习和使用scikit-learn过程中,官方文档中推荐了两个IDE(CanopyandAnaconda),我分别在win7和mac下安装后,发现Canopy是可以用的。Anaconda没搞明白怎么用。win7下使用canopy也有一些小波折,不过最终可以用,我觉得还挺方便。我当然下载的是Expr...
分类:
编程语言 时间:
2014-08-13 07:58:45
阅读次数:
1261
Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。...
分类:
其他好文 时间:
2014-05-26 03:21:30
阅读次数:
321