书接上文,考虑4个核心功能的实现,先考虑:数据预处理和按纬度统计。1、数据预处理1.1、基本原则首先,考虑数据的格式。业务数据是保存在关系型数据库中的。数据分析的部分,我们将使用Weka,虽然Weka习惯ARFF格式,为了实现数据分析和提取的自动化,我们将通过Weka的JDBC接口为其提供数据。这样,可以使用ETL工具或者通过程序代码执行SQL实现数据提取和格式转换。
在开发阶段,我们基本上可以将...
分类:
其他好文 时间:
2015-05-29 08:40:35
阅读次数:
183
Eclipse中配置weka 1找到weka的安装位置,寻找weka的压缩文件weka-src.jar,将压缩文件解压,解压出的文件夹weka-src。 2 打开Eclipse,新建Java project项目weka。 3 选中包src,右击导入,选择General,选择文件系统,选择程序(...
分类:
编程语言 时间:
2015-05-28 17:48:33
阅读次数:
278
apriori算法的计算量太大,如果数据集略大一些,会比较慢,非常容易内存溢出。
我们可以算一下复杂度:假设样本数有N个,样本属性为M个,每个样本属性平均有K个nominal值。
1. 计算一项频繁集的时间复杂度是O(N*M*K)。
2. 假设具有最小支持度的频繁项是q个,根据它们则依次生成一项频繁集,二项频繁集,....,r项频繁集合,它们的元素数量分别是:c(q, 1), c(q...
分类:
编程语言 时间:
2015-05-24 21:55:40
阅读次数:
377
前一阵子写过一个arff的随笔,但是写完后发现有些啰嗦。其实如果使用weka自带的api,生成arff文件将变成一件很简单的事儿。首先,可以先把特征文件生成csv格式的。csv格式就是每列数据都用逗号分隔的一种格式。(还有不清楚的googling一下就知道了)一、首先看下特征文件怎么保存成csv格式...
分类:
其他好文 时间:
2015-05-23 22:34:54
阅读次数:
871
该书由于去年刚出比较新,所以很难在网上下载到电子书,本人很幸运找到了前两章的电子版,而第二章又是本书的关键,所以建议大家先看看第二章,如果觉的写的好,可以再买书,或寻求电子版的全书,下载前两章请到:http://download.csdn.net/detail/u010968153/8686369...
分类:
其他好文 时间:
2015-05-19 10:41:03
阅读次数:
316
通用机器学习MLlib in Apache Spark—Spark中的分布式机器学习程序库Mahout—分布式的机器学习库Stanford Classifier—斯坦福大学的分类器Weka—Weka是数据挖掘方面的机器学习算法集。ORYX—提供一个简单的大规模实时机器学习/预测分析基础架构。数据分析...
分类:
其他好文 时间:
2015-05-15 19:20:34
阅读次数:
241
weka中的过滤器主要用于数据预处理阶段对数据集的各种操作。今天简单地使用一下过滤器:首先打开一个自带数据集weather.numeric.arff,这是一个关于通过天气条件,气温以及风力等因素来判断是否要play。可以看到:看一下数据的大致情况:红色代表no,蓝色代表yes。问题一:假设我现在要添...
分类:
其他好文 时间:
2015-05-15 13:22:49
阅读次数:
222
在这里,arff文件以Weka安装目录下data文件夹中的iris.arff文件为例。
1、先在weka中将arff文件转换为csv文件,然后删除csv文件中第一行对属性名的描述,如下图。
2、保存,并放到数据库数据文件目录下(如C:\ProgramData\MySQL\MySQL Server 5.5\data\weka);
3、在navicat下对应的数据库建立数据表,本例中:crea...
分类:
数据库 时间:
2015-05-11 10:49:15
阅读次数:
812
一、配置文件
1、设置CLASSPATH,如图:
2、使用UTF-8数据集或文件(可省略)
修改安装目录下的RunWeka.ini文件,步骤如下:
步骤1:用任意文本编辑器打开RunWeka.ini文件
步骤2:在32行找到fileEncoding=Cp1252,将Cp1252改为utf-8
3、配置DatabaseUtils.props文件
Weka只会去寻找名称为Databas...
分类:
数据库 时间:
2015-05-11 10:48:44
阅读次数:
206
Weka是一款使用Java语言编写的数据挖掘机器学习软件,是GNU协议下分发的开源软件。Weka提供了一整套完整的数据处理工具,学习算法和评价方法,包含数据可视化的图形用户界面。
Weka系统汇集了最前沿的机器学习算法和数据预处理工具,它包含处理标准数据挖掘问题的所有方法:回归,分类,聚类,关联规则以及属性选择。
在进行安装之前,首先要到官网上去下载weka安装文件。
下载地址:http://...
分类:
其他好文 时间:
2015-05-08 18:16:11
阅读次数:
168