kmeans是数据挖掘领域最为常用的聚类方法之一,最初起源于信号处理领域。它的目标是划分整个样本空间为若干个子空间,每个子空间中的样本点距离该空间中心点平均距离最小。因此,kmeans是划分聚类的一种。方法简单易懂,也很有说服力。但,不幸的是,这是一个NP-hard问题。首先来看一下NP问题。NP即...
分类:
其他好文 时间:
2014-10-13 23:20:57
阅读次数:
1672
(原创文章,转载请注明出处!)RRC(recursive rectangular clustering)的基本思想是通过递归的对包含所有样本点的局域进行矩形分割来达到对数据聚类的目的。算法来至文章Eigentaste: A Constant Time Collaborative Filtering ...
分类:
编程语言 时间:
2014-10-13 13:00:50
阅读次数:
206
Weka算法Clusterers-DBSCAN源码分析...
分类:
数据库 时间:
2014-10-12 23:50:58
阅读次数:
371
摘要: 为了提高源程序代码之间相似性的检测效率,提出一种基于序列聚类的相似代码检测算法. 算法首先把源代码按照其自身的结构进行分段提取,然后对各个分段进行部分代码变换,再以带权重的编辑距离为相似度量标准对这些符号进行序列聚类,得到相似的程序代码片段,以达到对源程序进行相似功能检测的目的. 应用: 可...
分类:
编程语言 时间:
2014-10-12 18:45:08
阅读次数:
349
让计算机代替人来完成对于红白细胞的自动分析,关键在于对红白细胞的分割与识别。
目前,已经出现了许多种分割和识别方法。在分割上有阈值分割、聚类、边缘检测以及区域提取等方法。特定地使用某种阈值分割法只能将其中的一部分红白细胞分割出来。聚类法是通过检测相似点的簇来对每个聚类进行标记,其缺点是聚类数目事先不可知,而且没有考虑到不同类别间的交叉性。边缘检测通过确定强度值的突变点的位置来区分不同的区域,...
分类:
其他好文 时间:
2014-10-11 00:33:34
阅读次数:
336
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一...
分类:
其他好文 时间:
2014-10-10 21:09:54
阅读次数:
221
前言本篇文章主要是继续前几篇Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,算法介绍后,经过这几种算法综合挖掘和分析之后,对一份摆在公司面前的人员信息列表进行推测,挖掘出这些人员信息中可能购买自行车的群体,把他们交个营销部,剩下的事...
分类:
数据库 时间:
2014-10-10 19:13:44
阅读次数:
219
本篇文章主要是继续上两篇Microsoft决策树分析算法和Microsoft聚类分析算法后,采用另外更为简单一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。有兴趣的同学可以先参照上面两种算法过程。应用场景介绍通过前面两种算法的应用场景介绍,此次总结的Microsoft Naiv...
分类:
数据库 时间:
2014-10-09 17:41:57
阅读次数:
241
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。
首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很...
分类:
其他好文 时间:
2014-10-08 18:24:35
阅读次数:
251
本篇文章主要是继续上一篇Microsoft决策树分析算法后,采用另外一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。应用场景介绍通过上一篇中我们采用Microsoft决策树分析算法对已经发生购买行为的订单中的客户属性进行了分析,可以得到几点重要的信息,这里做个总结:1、对于影响...
分类:
数据库 时间:
2014-10-07 23:34:24
阅读次数:
265