Boosting的思想是集成学习,把许多个弱分类器结合起来,构成一个强分类器。
 
首先输入原始的训练样本,得到一个弱分类器,可以知道它的正确率和错误率。计算该弱分类器的权重,如下:
然后提高错误分类样本的权重,让后面的分类器focus它们,调整样本的权重:
如果原本分类正确:
如果样本分类错误:
 
把新的样本输入到后面学习,重复这个过程,得到许多个弱分类器,及其分类器...
                            
                            
                                分类:
编程语言   时间:
2015-03-05 10:48:44   
                                阅读次数:
145
                             
                    
                        
                            
                            
                                机器学习中常常要用到分类算法,在诸多的分类算法中有一种算法名为k-近邻算法,也称为kNN算法。
一、kNN算法的工作原理
二、适用情况
三、算法实例及讲解
  ---1.收集数据
  ---2.准备数据
  ---3.设计算法分析数据
  ---4.测试算法
 
一、kNN算法的工作原理
官方解释:存在一个样本数据集,也称作训练样本集,并且样本中每个数据都存在标签,即我们知道样...
                            
                            
                                分类:
编程语言   时间:
2015-01-26 15:11:47   
                                阅读次数:
304
                             
                    
                        
                            
                            
                                前面我们已经说了logistic回归,训练样本是,(且这里的是d维,下面模型公式的x是d+1维,其中多出来的一维是截距横为1,这里的y=±1也可以写成其他的值,这个无所谓不影响模型,只要是两类问题就可以),训练好这个模型中参数θ以后(或者是这个模型,这俩是一个模型),然后给入一个新的,我们就可以根据...
                            
                            
                                分类:
其他好文   时间:
2015-01-12 22:16:49   
                                阅读次数:
302
                             
                    
                        
                            
                            
                                在有监督学习中,训练样本是有类别标签的。现在假设我们只有一个没有带类别标签的训练样本集合 ,其中 。自编码神经网络是一种无监督学习算法,它使用了反向传播算法,并让目标值等于输入值,比如 。下图是一个自编码神经网络的示例。通过训练,我们使输出 接近于输入 。当我们为自编码神经网络加入某些限制,比如限定...
                            
                            
                                分类:
编程语言   时间:
2015-01-07 23:22:05   
                                阅读次数:
1196
                             
                    
                        
                            
                            
                                k-近邻算法(kNN):测量不同特征值之间的距离方法进行分类。 kNN的工作原理:存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本集数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签。一般来说,只选择样本数据...
                            
                            
                                分类:
其他好文   时间:
2014-12-30 16:48:27   
                                阅读次数:
209
                             
                    
                        
                            
                            
                                KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的一种监督学习算法。KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归。使用KNN算法时我们必须有接近实际数据的训练样本数据。K-近邻算法必须保存全部数据集,如果训练数据集的很大,必须使用大量的存储空间。此外,由于必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时。k-近邻算法的另一个缺陷是它无法给出任何数据的基...
                            
                            
                                分类:
编程语言   时间:
2014-12-16 21:04:43   
                                阅读次数:
286
                             
                    
                        
                            
                            
                                KNN k临近算法遍历所有训练样本,求距离最近的点的结论,作为最后的预测结果MR版:map求样本距离(key:样本,value:距离),combine求的最小值,是过滤功能,reduce就有一个求得距离最小值贝叶斯:贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)贝叶斯将在属性条件下的...
                            
                            
                                分类:
其他好文   时间:
2014-12-15 10:21:20   
                                阅读次数:
121
                             
                    
                        
                            
                            
                                PAC可学习性很大程度上由所需的训练样本数量决定。随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度(sample complexity)。在多数实际问题中,最限制学习器成功的因素是有限的可用的训练数据。...
                            
                            
                                分类:
其他好文   时间:
2014-12-11 20:54:21   
                                阅读次数:
245
                             
                    
                        
                            
                            
                                最近使用Theano写了MLP和CNN的程序,由于训练样本大,单靠CPU运算速度so slow;于是乎找到了一台有NAIVID显卡的电脑进行了GPU的配置使用,期间遇到很多问题,记录如下:
平台说明:
系统:WindowsXP
Python:2.7, 建议直接使用 Python(x,y),包含了Theano需要的Numpy等库,省去自己配置
Theano: 0.6
CUDA:3....
                            
                            
                                分类:
其他好文   时间:
2014-12-06 15:25:07   
                                阅读次数:
228
                             
                    
                        
                            
                            
                                kNN算法,即K最近邻(k-NearestNeighbor)分类算法,是最简单的机器学习算法之一,算法思想很简单:从训练样本集中选择k个与测试样本“距离”最近的样本,这k个样本中出现频率最高的类别即作为测试样本的类别。
分类过程如下:
1 首先我们事先定下k值(就是指k近邻方法的k的大小,代表对于一个待分类的数据点,我们要寻找几个它的邻居)。这边为了说明问题,我们取两个k值,分别为3和5;
2 根据事先确定的距离度量公式(如:欧氏距离),得出待分类数据点和所有已知类别的样本点中,距离最近的k个样本。
3 统...
                            
                            
                                分类:
编程语言   时间:
2014-12-06 08:51:50   
                                阅读次数:
365