贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率...
分类:
其他好文 时间:
2014-09-27 17:36:30
阅读次数:
185
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N...
分类:
其他好文 时间:
2014-09-27 12:26:29
阅读次数:
205
数据挖掘(Data Mining)又称知识库知识发现(Knowledge-Discovery in Databases 简称KDD)。 1.什么是DM?(what?) 简单点说,DM就是从海量数据中找到有价值的知识,这些知识可以是规则、约束、模式、规律等等。 这些知识可以使用图表,决策...
分类:
其他好文 时间:
2014-09-26 21:25:08
阅读次数:
192
继续之前的读书笔记,本次讲解sas主要的变量操作,包括基本赋值语句、累加语句、keep语句、retain语句、array语句、rename语句、length语句。
1.基本赋值语句
z=x y;
z=sum(x,y); sum函数的好处是可以克服缺失值的影响;
2.如果表达式中既有数值型变量又有字符型变量的话,则会将字符型变量转化为数值型变量
...
分类:
其他好文 时间:
2014-09-26 11:18:31
阅读次数:
295
继续之前的读书笔记,废话少说,直奔主题。
本文重点在infile语句。
十一:infile语句
Dsd 规定一个数据集可以包含分隔符,但是要用引号括起来,两个连续分隔符之间的数作为缺失值处理, 默认分隔符为逗号
Firstobs= 规定从该记录行开始读入
Obs= 规定要读入的记录数
Length= virable 把当前行的数据长度赋值给临时...
分类:
其他好文 时间:
2014-09-26 10:11:53
阅读次数:
172
九:put语句
可以输出变量信息到指定地点,包括输出到sas系统的日志窗口;
输出到file语句规定的外部文件
输出到sas系统的output窗口
@单尾操作符,多用于input语句中,@@双尾操作符,多用于put语句中。
Data a;
Input x $ y z @@;
Cards;
A 10 20 b 30 40 c 50 6...
分类:
其他好文 时间:
2014-09-25 20:38:03
阅读次数:
206
1.记忆基础推理法(Memory-Based Reasoning;MBR)
记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。
记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合...
分类:
其他好文 时间:
2014-09-25 20:37:17
阅读次数:
299
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。
首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很...
分类:
其他好文 时间:
2014-09-25 20:36:57
阅读次数:
260
十:file语句
file中的option选项:
Dlm= 指定列表输出文件的分隔符,默认是空格
Dropover 规定当输出数据行长度超过指定值时,忽略超出部分
Flowover 规定当输出数据行长度超过指定值时,超过部分在下一行输出
Dsd 规定一个数据项可以包含分隔符,但是要用引号括住 默认分隔符是逗号
En...
分类:
其他好文 时间:
2014-09-25 20:23:51
阅读次数:
256