数据库:
派生属性:其值可以从一个相关属性和属性集的值派生得到的属性。
多值属性:指同时由多个值表示的属性。
数据挖掘:应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识。1,决策树。2,神经网络。3,遗传算法。4,关联规则挖掘算法。
数据挖掘的分析方法分4种:关联分析、序列模式分析、分类分析、聚类分析。
命名冲突:相同意义的属性,在不同的分E-R图上有不同的命名,或名称相...
分类:
数据库 时间:
2015-05-14 23:52:39
阅读次数:
247
1.1 KMeans聚类算法
1.1.1 基础理论
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。
K-Means聚类算法主要分为三个步骤:
(1)第一步是为待聚类的点寻找聚类中心;
(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点...
分类:
编程语言 时间:
2015-05-12 23:10:11
阅读次数:
402
Matlab提供系列函数用于聚类分析,归纳起来具体方法有如下:方法一:直接聚类,利用clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法,该方法的使用者无需了解聚类的原理和过程,但是聚类效果受限制。方法二:层次聚类,该方法较为灵活,需要进行细节了解聚...
分类:
Web程序 时间:
2015-05-12 15:09:30
阅读次数:
257
继上两篇文章介绍聚类中基于划分思想的k-means算法和k-mediod算法本文将继续介绍第二种基于划分思想的k-mediod算法-----clara算法clara算法能够说是对k-mediod算法的一种改进,就如同k-mediod算法对k-means算法的改进一样.clara(clustering...
分类:
编程语言 时间:
2015-05-11 17:40:33
阅读次数:
457
(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集...
分类:
数据库 时间:
2015-05-10 23:58:38
阅读次数:
271
在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。...
分类:
编程语言 时间:
2015-05-10 17:23:37
阅读次数:
342
Weka是一款使用Java语言编写的数据挖掘机器学习软件,是GNU协议下分发的开源软件。Weka提供了一整套完整的数据处理工具,学习算法和评价方法,包含数据可视化的图形用户界面。
Weka系统汇集了最前沿的机器学习算法和数据预处理工具,它包含处理标准数据挖掘问题的所有方法:回归,分类,聚类,关联规则以及属性选择。
在进行安装之前,首先要到官网上去下载weka安装文件。
下载地址:http://...
分类:
其他好文 时间:
2015-05-08 18:16:11
阅读次数:
168
4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算...
分类:
其他好文 时间:
2015-05-06 13:09:17
阅读次数:
106
聚类算法,不是分类算法。分类算法是给一个数据,然后判断这个数据属于已分好的类中的具体哪一类。聚类算法是给一大堆原始数据,然后通过算法将其中具有相似特征的数据聚为一类。这里的k-means聚类,是事先给出原始数据所含的类数,然后将含有相似特征的数据聚为一个类中。所有资料中还是Andrew Ng介绍的明...
分类:
其他好文 时间:
2015-04-30 10:19:02
阅读次数:
155