与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方...
分类:
其他好文 时间:
2014-09-10 00:13:09
阅读次数:
297
前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。
1:kmeans算法
Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中心的样本...
分类:
其他好文 时间:
2014-09-09 16:17:19
阅读次数:
234
下面列出了可用于数据挖掘的R包和函数的集合。其中一些不是专门为了数据挖掘而开发,但数据挖掘过程中这些包能帮我们不少忙,所以也包含进来。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclus...
分类:
其他好文 时间:
2014-09-02 00:10:23
阅读次数:
314
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的...
分类:
其他好文 时间:
2014-07-28 00:01:39
阅读次数:
343
继上篇的kmeans聚类算法,本文讲解了和Kmeans极为类似的kmediod聚类算法,分析了其异同及优缺点,并通过matlab代码实现了kmediod.代码中仍有bug.希望有大神能帮忙看看到底是收敛时间过长导致程序不终止还是代码本身的问题....
分类:
其他好文 时间:
2014-07-21 22:36:13
阅读次数:
580
此文用matlab实现了k-means聚类算法,虽然代码仍然有bug,但是就结果来说还是很正确的.通读此文对kmeans聚类算法有了更清晰的认识....
分类:
其他好文 时间:
2014-07-21 16:47:54
阅读次数:
312
聚类:就是将一个对象的集合分成几个簇,每个簇之间的对象不相似,但是簇内对象相似。可以认为是“物以类聚”。从这个简单的描述中,可以看出聚类的关键是如何度量对象间的相似性。较为常见的用于度量对象的相似度的方法有距离、密度等。k-Means:k-Means算法的核心思想是把n个数据对象划分为k个类(这k各...
分类:
其他好文 时间:
2014-07-14 21:27:26
阅读次数:
309
///利用opencv提供的函数cvKMeans2()实现图像聚类
///////运行环境:VC6.0+opencv1.0
///////////////使用的时候,改变flag的初始值,即可实现对灰度图、彩色图基于色彩的聚类,以及根据位置和色彩对彩色图像聚类。
////////////////最后结果显示的时候请注意pResult 和pResult3
#include "cv.h...
分类:
其他好文 时间:
2014-07-13 16:35:15
阅读次数:
463
1.背景 无监督学习的定义就不多说了,不懂得可以google。因为项目需要,需要进行无监督的分类学习。 K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法。 大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心。一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设...
分类:
编程语言 时间:
2014-07-12 20:04:16
阅读次数:
338
这些天做C#实验以及这个KMeans算法演示器,学了一下openG...
分类:
其他好文 时间:
2014-06-10 14:25:38
阅读次数:
219