机器学习之聚类

时间：2018-05-06 13:33:44 阅读：155 评论：0 收藏：0 [点我收藏+]

标签：put 参考技术分享个数 sub 原型经典相似度小学

公式实在不好敲呀，我拍了我笔记上的公式部分。原谅自己小学生的字体（太丑了）。

聚类属于无监督学习方法，典型的无监督学习方法还有密度估计和异常检测。

聚类任务：将数据集中的样本划分为若干个不相交的子集，每个子集为一个类。

性能指标（有效性指标）：类内相似度高，类间相似度低。

性能度量：

（1）外部指标：

将性能结果C={C_i,i=1...k},与参考模型结果C^*{C^*_i, i=1..s}进行对比（其中参考模型一般为专家根据经验划分的类），得出一些参数：

技术分享图片

根据这些参数算出不同的外部指标，这些指标都在0-1之间，且值越大越好

技术分享图片

（2）内部指标：（只考虑聚类结果，有距离来定义各个参数）

技术分享图片

距离计算

距离性质：

技术分享图片

常用距离（范数）：

1、闵可夫斯基距离：

技术分享图片

2、曼哈顿距离：

3、欧氏距离（最常用）：

技术分享图片

3、VDM距离

技术分享图片

4、闵可夫与VDM结合（混合属性）

技术分享图片

原型聚类

1、K-means（简单又经典的聚类方法）：

input：样本集 D={x_i,i=1...m},

k（欲分类类别个数）

output：划分为K类：C={C_i,i=1...k}

步骤：

（1）随机选取K个样本作为均值向量

（2）计算每个样本与各均值向量的距离

（3）由刚刚划分出的类别求出新的均值向量，再重复步骤（2）

（4）直到n+1轮迭代与第n轮相同（相似），算法停止迭代

2、学习向量量化（Learning Vector Quantization, LVQ）

思路：找一组原型你向量刻画聚类结构，但此算法假设数据样本都是带有类标记的。用样本本身的类标记进行辅助聚类。

input：样本集D={（x_i,y_i),i=1...m}

原型向量个数q，各原型向量预设类别标记{t_i,i=1...q}

学习率：η

output：原型向量

步骤：

（1）初始化一组原型向量

（2）选取样本，找到与其最近的原型向量（以距离刻画）

（3）根据样本本身类标记与原型类标记是否一致决定如何更新原型向量。

（4）更新公式：

技术分享图片

（5）满足条件（迭代次数或其他）后迭代停止。

3、高斯混合聚类

高斯分布（正态分布）：

混合分布：

机器学习之聚类

标签：put 参考技术分享个数 sub 原型经典相似度小学

原文地址：https://www.cnblogs.com/chuang0104/p/8997520.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行