作者:桂。 时间:2017-04-14 06:22:26 链接:http://www.cnblogs.com/xingshansi/p/6685811.html 声明:欢迎被转载,不过记得注明出处哦~ 前言 之前梳理了一下非负矩阵分解(Nonnegative matrix factorization ...
分类:
编程语言 时间:
2017-04-15 14:38:55
阅读次数:
483
1. 聚类与分类的区别: 首先要来了解的一个概念就是聚类,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习” ...
分类:
编程语言 时间:
2017-03-17 23:51:47
阅读次数:
427
序 由于项目需要,需要对数据进行处理,故而又要滚回来看看paper,做点小功课,这篇文章只是简单的总结一下基础的Kmeans算法思想以及实现; 正文: 1.基础Kmeans算法. Kmeans算法的属于基础的聚类算法,它的核心思想是: 从初始的数据点集合,不断纳入新的点,然后再从新计算集合的“中心” ...
分类:
编程语言 时间:
2017-03-14 13:32:51
阅读次数:
315
如果是自己写kmeans的话,会怎么写呢?首先kmeans的算法步骤是随机选取k个点作为初始的簇心,接着计算各个点到各个簇心的距离,将最近的簇心作为该点的簇心。接着对相同簇心的点做平均,得到下一个簇心接着就是不停地迭代,知道收敛为止那么哪些步骤可以并行计算呢?这里主要有两部分计算量第一部分是计算各个... ...
分类:
其他好文 时间:
2017-03-05 12:51:29
阅读次数:
252
1.knn是分类算法 2.监督学习 3.给它的数据是有label的,是已经事先分类好了的, 类别数不变。 1.kmeans是聚类算法 2.非监督学习 3.给它的数据是没有label,是没有事先分类好的, 以“物以类聚”原理进行聚集成簇。 K的含义:来了一个样本x,要给它分类,即求出它的类别,就从数据 ...
分类:
编程语言 时间:
2017-03-04 13:09:54
阅读次数:
467
本系列意在长期连载分享,内容上可能也会有所删改; 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) 其他:建设中… 当我们在谈论kmeans:论文概述(2) 算法历程 2001年 在Estlick, Mik ...
分类:
其他好文 时间:
2017-01-16 00:56:37
阅读次数:
319
本系列意在长期连载分享,内容上可能也会有所删改; 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) 其他:建设中… 当我们在谈论kmeans:总结 概述 通过前面阅读K-means相关论文,大致能梳理出K- ...
分类:
其他好文 时间:
2017-01-16 00:56:10
阅读次数:
148
(上接第二章) 4.3.1 KMeans 算法流程 算法的过程如下: (1)从N个数据文档随机选取K个文档作为质心 (2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类 (3)重新计算已经得到的各个类的质心 (4)迭代(2)~(3)步直至新的质心与原质心相等或者小于指定阀值,算法结 ...
分类:
编程语言 时间:
2017-01-05 17:54:31
阅读次数:
311
一、 什么是聚类 聚类简单的说就是要把一个文档集合根据文档的相似性把文档分成若干类,但是究竟分成多少类,这个要取决于文档集合里文档自身的性质。下面这个图就是一个简单的例子,我们可以把不同的文档聚合为3类。另外聚类是典型的无指导学习,所谓无指导学习是指不需要有人干预,无须人为文档进行标注。 二、聚类算 ...
分类:
编程语言 时间:
2016-12-24 23:04:10
阅读次数:
1222
预备工作: 启动hadoop集群 准备数据 Synthetic_control.data数据集下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data 在集群中创建 /user/root/ ...
分类:
编程语言 时间:
2016-11-05 17:28:43
阅读次数:
253