码迷,mamicode.com
首页 > 其他好文 > 详细

2017.06.29数据挖掘基础概念第十,十一章

时间:2017-06-29 23:54:36      阅读:245      评论:0      收藏:0      [点我收藏+]

标签:数据结构   基础   理解   计算   不同的   错误   索引   过程   约束   

第十章
63、什么是聚类分析
一个把数据对象划分成子集的过程。每一个子集市一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称做一个聚类。
64、数据挖掘对聚类的要求
1、可伸缩性 2、处理不同属性类型的能力 3、发现任意形状的簇
4、对于确定输入参数的领域知识的要求 5、出来噪声数据的能力
6、增量聚类和对输入次序不敏感 7、聚类高维数据的能力 8、基于约束的聚类
9、可解释性和可用性 10、划分准则 11、簇的分离性
12、相似性度量 13、聚类空间
65、基本聚类的方法
1、划分方法 2、层次方法 3、基于密度的方法 4、基于网格的方法
66、聚类方法的一般特点
划分方法:1、发现球形互斥的簇 2、基于距离
3、可以用均值或中心点等代表簇中心 4、对中小规模数据集有效
层次方法:1、聚类是一个层次分解 2、不能纠正错误的组合和划分
3、可以集成其他的技术,如微聚类或考虑对象‘连接’
基于密度的方法:1、可以发现任意形状的簇 2、可能过滤离群点
3、簇是对象空间中被低密度区域分隔的稠密区域
4、簇密度:每个点的“邻域”内必须具有最少个数的点
基于网格的方法:1、使用一种多分辨率网格数据结构 2、快速处理
67、怎样提高k—均值算法的可伸缩性
一种使用k—均值在大型数据集上更有效的方法是在聚类时使用合适规模的样本,另一种是使用过滤的方法,使用空间层次数据索引节省计算均值的开销。第三种方法利用微聚类的思想,首先把邻近的对象划分到一些“微簇”中,然后对这些微簇使用k—均值方法进行聚类。
68、哪种方法更鲁棒,k—均值还是k—中心点
当存在噪声和离群点时k—中心点方法比k—均值更鲁棒,这是因为中心点不像均值那样容易受离群点或其他极端值影响,然而,当n和k较大时,k—中心计算的花销变得相当大,远高于k—均值。这两种方法都要求用户指定簇数k。
69、如何使用以核心对象为中心的小稠密区域装配一个大稠密区域(P307理解过程)
第11章(P323-325自己看理解)
第12章
70、什么是离群点
一个数据对象,它显著不同于其他数据对象,好像它被不同的机制产生一样

2017.06.29数据挖掘基础概念第十,十一章

标签:数据结构   基础   理解   计算   不同的   错误   索引   过程   约束   

原文地址:http://www.cnblogs.com/hqutcy/p/7096625.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!