最近做数据挖掘相关的工作,题目是时间序列聚类研究,目前对于这方面的研究都还只是在起步阶段,被广泛使用的还是基于K-MEDOIDS的聚类,放弃K-MEANS的主要原因还是时间序列之间序列的计算难度,对于这方面我们也已经有了一定的进展,不过也还是有很多的问题。把基于DTW与K-MEDOIDS的时间序列聚...
分类:
编程语言 时间:
2015-01-12 22:14:56
阅读次数:
400
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N...
分类:
编程语言 时间:
2015-01-12 20:41:20
阅读次数:
207
??
最近在看一本叫《大话数据挖掘》的书,简单的摘要总结一些数据挖掘的基础理论知识:
1.Data Mining(在学术界也叫KDD:knowledge discovery in database) ,就是从大量的、不完全的、有噪声的、模糊的、随机的 数据中,提取隐含在其中的,我们事先不知道的、又潜在有用信息的知识的过程。(大多算法建立在:统计学的大数定律基础上)
2.D...
分类:
其他好文 时间:
2015-01-10 16:36:45
阅读次数:
157
EM算法大致分为两步——E步骤和M步骤。
而在求解运算过程中,需要用到高斯分布,逆矩阵等数学知识。EM算法上篇先梳理一下基础的数学知识,具体EM算法的核心思想下篇再进行介绍。
由于公式,矩阵太多,便手写一份推导,贴在下面。...
分类:
编程语言 时间:
2015-01-09 21:00:58
阅读次数:
272
前言 想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事。 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了。 本文将讲解关联分析领域中最为经典的Apriori算法,并给出具体的代码实现。关联分析领域的一些概念 1. 频繁项集...
分类:
编程语言 时间:
2015-01-09 17:13:21
阅读次数:
188
下面内容摘自互联网并作了整理。名词:BI(Business Intelligence):商业智能,DW(Data Warehouse):数据仓库,详见正文Q1部分。OLTP(On-Line Transaction Processing):联机事务处理也称为面向交易的处理系统,其基本特征是顾客的原始数...
分类:
其他好文 时间:
2015-01-09 12:32:54
阅读次数:
172
数学大神、统计学大神和数据挖掘推荐大神请关注。一、数学期望的理解 早些时候,法国有两个大数学家,一个叫做布莱士·帕斯卡,一个叫做费马。帕斯卡认识两个赌徒,这两个赌徒向他提出了一个问题。他们说,他俩下赌金之后,约定谁先赢满5局,谁就获得全部赌金。赌了半天,A赢了4局,B赢了3局,时间很晚了,他们都不....
分类:
编程语言 时间:
2015-01-08 21:34:42
阅读次数:
288
支持向量机在机器学习和数据挖掘领域应用广泛,因此在传统的支持向量机的基础上引申出了大量变形的支持向量机。其中2007年由Jayadeva提出的孪生支持向量机在性能和速度上表现卓越,本文先通过简单的讲解支持向量机,进一步引出广义特征值支持向量机,最后引出孪生支持向量机,并将孪生支持向量机与传统支持向量机进行对比。...
分类:
Windows程序 时间:
2015-01-07 17:00:36
阅读次数:
2381