Weka算法Classifier-trees-REPTree源码分析(一)...
分类:
其他好文 时间:
2014-09-21 20:41:51
阅读次数:
222
源代码下载:NaviveBayesClassify.rarPreface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类...
分类:
其他好文 时间:
2014-09-18 22:02:34
阅读次数:
325
二类分类器svm 的loss function 是 hinge loss:L(y)=max(0,1-t*y),t=+1 or -1,是标签属性. 对线性svm,y=w*x+b,其中w为权重,b为偏置项,在实际优化中,w,b是待优化的未知,通过优化损失函数,使得loss function最小,得到优化...
分类:
其他好文 时间:
2014-09-15 14:08:08
阅读次数:
229
Weka算法Classifier-meta-Bagging源码分析...
分类:
其他好文 时间:
2014-09-14 20:49:17
阅读次数:
480
1、概率密度函数
在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件概率密度通常是未知的。那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,可以从样本集来推断总体概率分布。这种估计方法,通常称之为...
分类:
其他好文 时间:
2014-09-10 14:13:20
阅读次数:
294
Weka算法Classifier-tree-J48源码分析(四)总结...
分类:
其他好文 时间:
2014-09-09 13:20:08
阅读次数:
248
ModelSelection主要是用于选择合适的列对数据集进行分割,结合上一篇J48的主流程,发现用到的ModelSelection有 C45ModelSelection以及BinC45ModelSelection,先来分析C45ModelSelection。
一、C45ModelSelection
首先作为一个ModelSelection接口,实现的主要方法有两个,分别是select...
分类:
其他好文 时间:
2014-09-07 22:32:55
阅读次数:
311
Weka算法Classifier-tree-J48源码分析(二)ClassifierTree...
分类:
其他好文 时间:
2014-09-07 16:02:25
阅读次数:
251
在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器,并且其输出的类别...
分类:
其他好文 时间:
2014-09-04 18:34:39
阅读次数:
275
邻近算法 KNN算法的决策过程 k-Nearest Neighbor algorithm是K最邻近结点算法(k-Nearest Neighbor algorithm)的缩写形式,是电子信息分类器算法的一种该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的 K 篇文....
分类:
编程语言 时间:
2014-09-02 10:13:54
阅读次数:
329