上篇博客讲述了Apriori算法的思想和java实现,http://blog.csdn.net/u010498696/article/details/45641719 Apriori算法是经典的关联规则算法,但是如上篇博客所述,它也有两个致命的性能瓶颈,一个是频繁集自连接产生候选集这一步骤中可能产生大量的候选集;另一个是从候选集得到频繁项集需要重复扫描数据库。
2000年,Han等提出了一个称为...
分类:
编程语言 时间:
2015-05-18 16:48:00
阅读次数:
199
数据库:
派生属性:其值可以从一个相关属性和属性集的值派生得到的属性。
多值属性:指同时由多个值表示的属性。
数据挖掘:应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识。1,决策树。2,神经网络。3,遗传算法。4,关联规则挖掘算法。
数据挖掘的分析方法分4种:关联分析、序列模式分析、分类分析、聚类分析。
命名冲突:相同意义的属性,在不同的分E-R图上有不同的命名,或名称相...
分类:
数据库 时间:
2015-05-14 23:52:39
阅读次数:
247
关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系。一个典型的关联规则挖掘例子是购物篮分析,即通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购物习惯,从而可以帮助零售商指定营销策略,引导销售等。国外有"啤酒与尿布"的故事,国内有泡面和火腿的故事。本文以Apriori算法为例介绍关联规则挖掘并以java实现。
什么是关联规则:
对于记录的集合D和记录A,记录B,A,B属于D:...
分类:
编程语言 时间:
2015-05-11 14:57:28
阅读次数:
181
1.1 FPGrowth算法
1.1.1 基本概念
关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
关联规则的相关术语如下:
(1)项与项集
这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Ite...
分类:
编程语言 时间:
2015-05-09 17:35:41
阅读次数:
201
Weka是一款使用Java语言编写的数据挖掘机器学习软件,是GNU协议下分发的开源软件。Weka提供了一整套完整的数据处理工具,学习算法和评价方法,包含数据可视化的图形用户界面。
Weka系统汇集了最前沿的机器学习算法和数据预处理工具,它包含处理标准数据挖掘问题的所有方法:回归,分类,聚类,关联规则以及属性选择。
在进行安装之前,首先要到官网上去下载weka安装文件。
下载地址:http://...
分类:
其他好文 时间:
2015-05-08 18:16:11
阅读次数:
168
1. 数据预处理阶段,判定冗余数据用到的相关性分析、协方差分析(统计分析):2. 关联规则中的支持度、置信度、相关性分析(概率分析):
分类:
其他好文 时间:
2015-05-01 22:34:03
阅读次数:
184
上一节我们介绍了监督学习的整体框架和基本的要点,按照总分的思考方式,接下来我们要分别介绍相应的一些算法了。今天这节我们来看看贝叶斯定理在机器学习中的应用。本章要点如下:1.贝叶斯定理;2.分类中的贝叶斯定理;3.风险和效用度量;4.关联规则;一、贝叶斯定理贝叶斯定..
分类:
其他好文 时间:
2015-04-28 12:09:28
阅读次数:
187
之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用
在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法相差并不是十分巨大
所以这里首先介绍在单机内存中运行的FPGrowth算法
还是使用apriori算法的购物车数据作为例子,如下图所示:...
分类:
编程语言 时间:
2015-04-24 14:22:49
阅读次数:
185
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用
举个简单的例子
如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥
而这些套餐就很有可能符合你的胃口,原本只想买一本书的你可能会因为这个推荐而买了整个套餐
这与userCF和itemCF不同的是,前两种是推荐类似的,或者你可能喜欢的...
分类:
编程语言 时间:
2015-04-24 09:06:25
阅读次数:
228