码迷,mamicode.com
首页 > 其他好文 > 详细

学习理论

时间:2014-10-12 01:39:27      阅读:272      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   io   ar   数据   sp   2014   问题   

1. 偏差和方差平衡

在线性回归中,对于同一个数据集,可以拟合出简单的线性模型bubuko.com,布布扣或者较为复杂一些的多项式bubuko.com,布布扣例如:

bubuko.com,布布扣

 

图中的训练样本是一致的,但是可以拟合出不同的模型。最右边图中拟合出的5阶多项式,并不见得就是一个好模型,虽然该模型能够准确预测出样本点的y值,因为这种模型过分拟合了训练样本(过拟合),当对非训练样本预测时,往往效果很糟糕,即由训练集拟合出的这个模型泛化能力很差。某个假设的泛化误差就是该假设用于预测新样本时的期望误差与其用于预测训练集样本的误差不一致。

而最左边的模型由于拟合程度不够,导致对训练集的预测都很糟糕(欠拟合),泛化误差也很大。由图中所画样本点很容易看出,y与x是非线性关系,即使我们用大量的数据拟合出来一个线性模型,这个模型仍然不能准确的拟合出数据结构特征。我们定义偏差(bias)对预期的泛化误差进行建模,那么最左边图中的线性模型存在较大偏差。

除了偏差,还可以用方差(variance)来衡量模型的泛化误差。特别是上面最右边的5阶模型,很有可能就是该模型就仅仅是对图中所示的几个样本(有限样本集)有效,而没有真正拟合出x和y之间的关系模式,对新的测试样本效果很差,因此得到的模型泛化误差同样很大。这时,我们就说模型的方差较大(可以形象理解为模型波动较大)。

所以,需要在偏置和方差之间加以平衡。当模型过于简单,参数较少,则偏差较大(但是方差较小),当模型过于复杂,参数很多,则方差较大(但是偏差较小)。因此,对于上面的例子,拟合出一个二次函数要比左右两端的模型都要好。

2. 预备知识

定理(联合边界)如果 A1, A2, ..., A是 个不同的事件(不一定互相独立),那么:

bubuko.com,布布扣

 

 

这是概率论中的一个公理,直观上很容易理解:k个不同事件并的发生概率小于k个事件各自发生的概率之和。

定理(Hoeffding不等式)如果Z1, ... Zm 是 m 个独立同分布的随机变量,且服从伯努利分布bubuko.com,布布扣,即bubuko.com,布布扣bubuko.com,布布扣,用bubuko.com,布布扣表示这些随机变量的均值,给定任意正数bubuko.com,布布扣,那么:

bubuko.com,布布扣

由概率论可知,bubuko.com,布布扣就是伯努利分布的期望,而bubuko.com,布布扣是通过m个样本得出的对bubuko.com,布布扣的估计,所以这个定理的意思是,随着样本数量m的增加,样本估计的均值bubuko.com,布布扣与期望的差别会越来越小。

下面会用这两个定理来证明一些很重要的学习理论。为了简化起见,这里讨论二分类问题,标签是bubuko.com,布布扣,所有讨论都可以泛化到其他问题,如回归和多分类问题。

给定训练集:bubuko.com,布布扣,所有样本独立同分布,均服从分布bubuko.com,布布扣. 定义训练误差(又叫经验风险或者经验误差)如下:

bubuko.com,布布扣

 

注意这里的符号“1{}”,表示如果{}里面的表达式为真,则1{}  = 1,否则为0,如1{3=2} = 0,1{3=3}=1.

所以这个定义就是计算被错分类的样本占所有样本的比例。

如果将bubuko.com,布布扣于训练集 S 联系起来,即训练集bubuko.com,布布扣的训练误差,就可以写为bubuko.com,布布扣. 再定义泛化误差:

bubuko.com,布布扣

 

这个定义的意思是,现在随机采样一个服从分布bubuko.com,布布扣的新样本(不是从训练集中随机选,而是重新采样),那么这个样本被错分的概率就是泛化误差。

考虑线性分类,令bubuko.com,布布扣,通过什么样的方式拟合参数bubuko.com,布布扣才合理呢?一种方法是最小化训练误差:

bubuko.com,布布扣

 

我们称这个过程为经验风险最小化(empirical risk minimization,ERM),拟合出的模型就是bubuko.com,布布扣. ERM是一种最基本的算法(逻辑回归算可以近似看做一种经验风险最小化)。

在我们的讨论学习理论时,将参数和假设从具体的问题中抽象出来会很有用。定义一个假设类bubuko.com,布布扣,它表示某一类问题对应的分类器的集合。对于线性分类,bubuko.com,布布扣就表示所有输入为bubuko.com,布布扣,决策边界为线性的分类器。更加广泛地说,如果我们学习一个神经网络,那么可以令bubuko.com,布布扣表示某种神经网络结构。

经验风险最小化现在可以被认为是在bubuko.com,布布扣的基础上进行,即学习算法在bubuko.com,布布扣中选出训练误差最小的假设:

bubuko.com,布布扣

 

3. 有限假设集(The case of finite bubuko.com,布布扣

这一部分讨论有限假设集学习问题,在这个问题中,假设集bubuko.com,布布扣包含 k 个假设。因此bubuko.com,布布扣是一个包含 k 个函数的集合,这 k 个函数将bubuko.com,布布扣映射到{0, 1}.

对于任意一个给定的假设bubuko.com,布布扣,考虑伯努利随机变量bubuko.com,布布扣. 采样bubuko.com,布布扣,然后,令bubuko.com,布布扣.也即是说我们随机采取样本,用bubuko.com,布布扣来表示假设bubuko.com,布布扣是否错分了该样本。类似地,可以定义bubuko.com,布布扣bubuko.com,布布扣.由于训练集是由分布bubuko.com,布布扣中采样出的独立同分布样本组成,所以bubuko.com,布布扣bubuko.com,布布扣服从同一分布。

可以看出对随机样本错分的概率就是bubuko.com,布布扣(和bubuko.com,布布扣)的期望值(注意bubuko.com,布布扣不是训练集的元素,bubuko.com,布布扣是训练集的元素)。训练误差可以写为:

bubuko.com,布布扣

 

容易看出,bubuko.com,布布扣就是 m 个随机变量bubuko.com,布布扣的均值,所以bubuko.com,布布扣是由一个伯努利分布采样出来的一系列独立同分布变量,这个伯努利的分布的均值是bubuko.com,布布扣(因为上面讨论过bubuko.com,布布扣bubuko.com,布布扣服从同一分布,bubuko.com,布布扣的所服从分布的均值是bubuko.com,布布扣,所以bubuko.com,布布扣所服从分布的均值也是bubuko.com,布布扣),那么应用上面提到的Hoeffding不等式:

bubuko.com,布布扣

 

这表明,当 m 很大的时候,对于特定的假设bubuko.com,布布扣,训练误差和泛化误差非常接近(很高的概率),

但是,我们不只是想只保证某一个假设的训练误差和泛化误差非常接近,而是针对所有bubuko.com,布布扣均有该结论,下面将证明之。

(待续。。。)

 

学习理论

标签:style   blog   http   io   ar   数据   sp   2014   问题   

原文地址:http://www.cnblogs.com/90zeng/p/learning_theory.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!