Logistic回归也是一种分类算法,其主要思想是:根据现有数据对分类边界建立回归公式,以此进行分类。简单的说就是采用Logistic回归函数,接受所有的特征值输入,然后输出类别。Logistic函数又叫sigmoid函数:形状为:从上图容易看出,输入t,在x!=0的情况下,P(t)大于0.5 或小...
分类:
其他好文 时间:
2015-09-03 00:42:01
阅读次数:
210
K最近邻(k-Nearest Neighbor,KNN)分类算法 R语言实现包:R语言中有kknn package实现了weighted k-nearest neighbor。决策树: R语言实现决策树:rpart扩展包iris.rp = rpart(Species~.,data = iris,.....
分类:
编程语言 时间:
2015-08-25 21:21:44
阅读次数:
428
作为(曾)被认为两大最好的监督分类算法之一的adaboost元算法(另一个为前几节介绍过的SVM算法),该算法以其简单的思想解决复杂的分类问题,可谓是一种简单而强大的算法,本节主要简单介绍adaboost元算法,并以实例看看其效果如何。该算法简单在于adaboost算法不需要什么高深的思想,它的基础就是一个个弱小的元结构(弱分类器),比如就是给一个阈值,大于阈值的一类,小于阈值的一类,这样的最简单的...
分类:
编程语言 时间:
2015-08-21 19:31:38
阅读次数:
568
写在之前 支持向量机(SVM),一个神秘而众知的名字,在其出来就受到了莫大的追捧,号称最优秀的分类算法之一,以其简单的理论构造了复杂的算法,又以其简单的用法实现了复杂的问题,不得不说确实完美。
本系列旨在以基础化的过程,实例化的形式一探SVM的究竟。曾经也只用过集成化的SVM软件包,效果确实好。因为众人皆说原理复杂就对其原理却没怎么研究,最近经过一段时间的研究感觉其原理还是可以理解,这...
分类:
其他好文 时间:
2015-08-17 19:33:39
阅读次数:
1322
最近的关键字:分类算法,outlier detection,machine learning简介:此文将 k-means,decision tree,random forest,SVM(support vector mechine),人工神经网络(Artificial Neural Network,...
分类:
编程语言 时间:
2015-08-17 00:41:40
阅读次数:
298
一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念接前面系列4篇:一小时了解数据挖掘①:解析常见的大数据应用案例一小时了解数据挖掘②:分类算法的应用和成熟案例解析一小时了解数据挖掘③:详解大数据挖掘の分类技术一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律数据挖掘有很...
分类:
其他好文 时间:
2015-08-16 12:13:26
阅读次数:
190
贝叶斯在1763年,《机会学说中一个问题的解》中提出了贝叶斯定理。生活中不乏分类,比如我们经常通过一些人的衣着,来下意识的区别某些人是杀马特亦或是文艺青年。我们是如何做出这些判断或者说是分类的呢?这些判断大多来自我们的“经验之谈”,即,我们首先脑海中会先存有“某类人通常会如何着装打扮”的概念,然后当...
分类:
编程语言 时间:
2015-08-12 18:51:10
阅读次数:
154
前言:
本系列是在作者学习《机器学习系统设计》([美] WilliRichert)过程中的思考与实践,全书通过Python从数据处理,到特征工程,再到模型选择,把机器学习解决问题的过程一一呈现。书中设计的源代码和数据集已上传到我的资源:http://download.csdn.net/detail/solomon1558/8971649
第2章通过在真实的Seeds数据集...
分类:
编程语言 时间:
2015-08-10 22:25:16
阅读次数:
179
NLTK是Python的一个自然语言处理的模块,其中实现了朴素贝叶斯分类算法。以下,就使用上一篇文中提到的数据,来应用这个模块实现朴素贝叶斯分类。NLTK的实现更加泛化,所以在应用到我们的数据上时需要做一点的转化。
首先来看一下NLTK官方文档中给出的一个简单明了的例子,在了解这个例子之后,再设法将同样的模型应用到自己的数据集上。官方给出的例子是英文名中,在知道名字中最后一个字母后,判断...
分类:
其他好文 时间:
2015-08-10 20:10:15
阅读次数:
651
在前两节曾经介绍过logistic回归与分类算法,并对线性与非线性数据集分别进行分类实验。Logistic采用的是一层向量权值求和的方式进行映射,所以本质上只能对线性分类问题效果较好(实验也可以看到),其模型如下所示(详细的介绍可看上两次博客:机器学习之logistic分类线性与非线性实验(续)):既然如此,我们可不可以在Y出来之前在多进行几次映射呢?答案是可以的,这就引出了多层网络,每层网络的输出...
分类:
编程语言 时间:
2015-08-10 18:13:13
阅读次数:
199