作为一个免费、公开、开源的数据挖掘工作平台,Weka集合了大量能承担数据挖掘任务的机器学习算法,包括预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化操作等;目前,Weka最新版本为weka-3-7-11,可以利用weka进行大数据的挖掘和分析处理。WEKA的全名是怀卡..
分类:
其他好文 时间:
2017-07-28 13:30:57
阅读次数:
142
检索模型的目的 现实中搜索引擎的检索策略复杂多变,但是分析起来,核心的目的就两个,为了: 1. 越相关的结果越靠前; 2. 查询的结果是完整的。 经典检索模型 经典信息检索模型有三类: 1.布尔模型 2.向量模型 3.概率 不看内部, 查询的模型是:查询->查询模型->返回结果,一个查询是一组关键字 ...
分类:
其他好文 时间:
2017-07-27 15:44:39
阅读次数:
107
R语言数据挖掘实战系列(5)——挖掘建模一、分类与预测分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。1.实现过程(1)分类分类是构造一个分类模型,输入样本的属性值,输出对应..
分类:
编程语言 时间:
2017-07-23 22:32:09
阅读次数:
189
Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。 FpGrowth算法通过构 ...
分类:
编程语言 时间:
2017-07-23 12:37:54
阅读次数:
233
"我们沉浸在数据的海洋里,却渴望着知识的淡水。" 数据挖掘的最高境界就是“从数据中获取知识,辅助科学决策”。 历史使命:“建设创新型国家” 第一章 故事一:课外知识: 萨姆。沃尔顿(沃尔玛创始人) (1)服务理念:“日落原则”、“十英尺态度”、“三米微笑”。 (2)营销策略:“女裤理论”(薄利多销) ...
分类:
其他好文 时间:
2017-07-15 14:00:11
阅读次数:
126
参考以下资料:维基百科:https://zh.wikipedia.org/wiki/%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99%E5%AD%A6%E4%B9%A0 简书:http://www.jianshu.com/p/7d459ace31ab http://www.3 ...
分类:
编程语言 时间:
2017-07-07 23:28:12
阅读次数:
241
MADlib是Pivotal公司与伯克利大学合作的一个开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最... ...
分类:
数据库 时间:
2017-07-03 01:06:53
阅读次数:
332
第六章51、关联规则的挖掘的两个过程1、找出所有的频繁项集2、由频繁项集产生强关联规则52、频繁项集挖掘方法 1、Apriori算法 2、挖掘频繁项集的模式增长方法 3、使用垂直数据格式挖掘频繁项集53、提高Apriori算法的效率 1、基于散列的技术 2、事务压缩 3、划分 4、抽样 5、动态项集 ...
分类:
其他好文 时间:
2017-06-29 23:48:45
阅读次数:
241
利用KNIMI做商超零售关联推荐老帅 20150801http://blog.csdn.net/shuaihj一、測试数据 须要測试数据,请留下邮箱 二、训练关联推荐规则1.读取销售记录(sales.table) 2.训练关联规则(得到前后项) 设置最小项集属性 3.过滤不关心列 仅仅保留“后项”和 ...
分类:
其他好文 时间:
2017-06-29 20:35:02
阅读次数:
172
关于Loadrunner关联 一、什么时候需要关联1.关联的含义 关联(correlation):在脚本回放过程中,客户端发出请求,通过关联函数所定义的左右边界值(也就是关联规则),在服务器所响应的内容中查找,得到相应的值,已变量的形式替换录制时的静态值,从而向服务器发出正确的请求,这种动态获得服务 ...
分类:
其他好文 时间:
2017-06-26 17:12:24
阅读次数:
205