无监督算法: KMeans算法: 1、 随机初始化数据集簇的中心,一般从数据集中选择 2、 外循环: 内循环:计算各个数值点到中心的距离,进行聚类 计算每个聚类的平局值,移动聚类中心 PCA算法: 目标:数据压缩和可视化 1、 对样本数据进行去均值和归一化 2、 组建sigma矩阵,然后进行奇异值分 ...
分类:
编程语言 时间:
2019-02-02 14:23:14
阅读次数:
164
kmeans聚类理论篇 前言 kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R ...
分类:
编程语言 时间:
2019-01-28 01:30:53
阅读次数:
236
https://blog.csdn.net/loveliuzz/article/details/78783773 机器学习sklearn19.0聚类算法——Kmeans算法 ...
分类:
编程语言 时间:
2019-01-19 15:13:24
阅读次数:
187
KMeans KMeans是一种无监督学习聚类方法, 目的是发现数据中数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。 无监督学习,也就是没有对应的标签,只有数据记录.通过KMeans聚类,可以将数据划分成一个簇,进而发现数据之间的关系. 原理 KMeans算法 ...
分类:
编程语言 时间:
2018-11-26 23:18:27
阅读次数:
380
from __future__ import print_function import sys import numpy as np from pyspark.sql import SparkSession def parseVector(line): return np.array([float... ...
分类:
编程语言 时间:
2018-10-30 21:21:34
阅读次数:
247
Bisecting KMeans Bisecting KMeans算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二,之后选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇,以此进行下去,直到簇的数目等于用户给定的数目k为止。 Gaussian Mixture Model ...
分类:
编程语言 时间:
2018-08-02 02:03:02
阅读次数:
169
一、关于聚类及相似度、距离的知识点 二、k-means算法思想与流程 三、sklearn中对于kmeans算法的参数 四、代码示例以及应用的知识点简介 (1)make_blobs:聚类数据生成器 sklearn.datasets.make_blobs(n_samples=100, n_feature ...
分类:
编程语言 时间:
2018-05-08 14:24:08
阅读次数:
1174
一、Kmeans算法流程: 1.选取K个类中心(首次随机选取) 2.计算每个点到K个类中心的距离 3.把数据点分配给距离最近的一个类中心 4.计算新的类中心(对该类中的所有点取均值) 5.重复234,直至满足终止条件后终止迭代 不再有重新分配 最大迭代数 所有类中心移动小于某一阈值 二、Kmean算 ...
分类:
编程语言 时间:
2018-01-30 22:52:33
阅读次数:
199
聚类概念 无监督问题:我们手里没有标签 聚类:相似的东西分到一组 难点:如何评估,如何调参 基本概念 要得到簇的个数,需要指定K值 质心:均值,即向量各维取平均即可 距离的度量:常用欧几里得距离和余弦度(先标准化) 优化目标: 工作流程: 优势: 简单、快速、适合常规数据集 劣势: K值难确定 复杂 ...
分类:
编程语言 时间:
2017-11-02 14:27:19
阅读次数:
258
第十章 利用k-均值聚类算法对未标注的数据进行分组 一.导语 聚类算法可以看做是一种无监督的分类方法,之所以这么说的原因是它和分类方法的结果相同,区别它的类别没有预先的定义。簇识别是聚类算法中经常使用的一个概念,使用这个概念是为了对聚类的结果进行定义。 聚类算法几乎可以用于所有的对象,并且簇内的对象 ...
分类:
编程语言 时间:
2017-09-10 17:41:18
阅读次数:
299