2017.06.29数据挖掘基础概念第十，十一章

时间：2017-06-29 23:54:36 阅读：245 评论：0 收藏：0 [点我收藏+]

第十章
63、什么是聚类分析
一个把数据对象划分成子集的过程。每一个子集市一个簇，使得簇中的对象彼此相似，但与其他簇中的对象不相似。由聚类分析产生的簇的集合称做一个聚类。
64、数据挖掘对聚类的要求
1、可伸缩性 2、处理不同属性类型的能力 3、发现任意形状的簇
4、对于确定输入参数的领域知识的要求 5、出来噪声数据的能力
6、增量聚类和对输入次序不敏感 7、聚类高维数据的能力 8、基于约束的聚类
9、可解释性和可用性 10、划分准则 11、簇的分离性
12、相似性度量 13、聚类空间
65、基本聚类的方法
1、划分方法 2、层次方法 3、基于密度的方法 4、基于网格的方法
66、聚类方法的一般特点
划分方法：1、发现球形互斥的簇 2、基于距离
3、可以用均值或中心点等代表簇中心 4、对中小规模数据集有效
层次方法：1、聚类是一个层次分解 2、不能纠正错误的组合和划分
3、可以集成其他的技术，如微聚类或考虑对象‘连接’
基于密度的方法：1、可以发现任意形状的簇 2、可能过滤离群点
3、簇是对象空间中被低密度区域分隔的稠密区域
4、簇密度：每个点的“邻域”内必须具有最少个数的点
基于网格的方法：1、使用一种多分辨率网格数据结构 2、快速处理
67、怎样提高k—均值算法的可伸缩性
一种使用k—均值在大型数据集上更有效的方法是在聚类时使用合适规模的样本，另一种是使用过滤的方法，使用空间层次数据索引节省计算均值的开销。第三种方法利用微聚类的思想，首先把邻近的对象划分到一些“微簇”中，然后对这些微簇使用k—均值方法进行聚类。
68、哪种方法更鲁棒，k—均值还是k—中心点
当存在噪声和离群点时k—中心点方法比k—均值更鲁棒，这是因为中心点不像均值那样容易受离群点或其他极端值影响，然而，当n和k较大时，k—中心计算的花销变得相当大，远高于k—均值。这两种方法都要求用户指定簇数k。
69、如何使用以核心对象为中心的小稠密区域装配一个大稠密区域（P307理解过程）
第11章（P323-325自己看理解）
第12章
70、什么是离群点
一个数据对象，它显著不同于其他数据对象，好像它被不同的机制产生一样

标签：数据结构基础理解计算不同的错误索引过程约束

原文地址：http://www.cnblogs.com/hqutcy/p/7096625.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行