最优化

时间：2017-08-29 18:01:57 阅读：201 评论：0 收藏：0 [点我收藏+]

标签：包含 content contain span dal data history 基础上数值增加

http://x-algo.cn/index.php/2016/06/15/optimal-gradient-method/

「最优化」一维搜索方法

本文讨论的是一元单值函数

一维搜索法是多变量问题求解法的一个特例
一维搜索法是多变量问题求解算法的一部分

文章目录 [展开]

黄金分割法

黄金分割法是求解一元单值函数

其实介绍「黄金分割法」之前应该介绍一下「比例切割法」（我自己造的名字），「比例分割法」非常直观，如果已知极小值在一个区间内部，可以通过在区间内部取两个点

「黄金分割法」巧妙的地方在于，无论子区间是

斐波那契数列法

利用「黄金分割法」进行迭代的过程中，每一步的压缩比例

两次迭代中如果想要实现上一步的计算结果可以被下一步使用，需要满足下面公式：

整理之后可以得到：

上面介绍的「黄金分割法」只是上式的特例

迭代N次的压缩比为：

所以这个问题可以通过最优化问题描述为：

上面优化问题的最优解可用斐波那契数列表示：

证明过程就不写了（关键是我也没看懂）。

二分法

在前面的假设基础上，如果限制函数f一阶可导，就可以使用二分法进行求解。具体的，每次确定中间点

牛顿法

如果函数二阶可微，可用牛顿法求解极小值。核心思想就是在当前点构造一个二次函数（其实就是泰勒展开），通过求解这个二次函数的极小值点，间接求得原始函数的极小值点。构造函数为：

求上面式子的极小值，可以通过一阶必要条件得到：

解得：

求方程的根

牛顿法可以通过不断的迭代迫使目标函数f的一阶导数函数趋于0，所以牛顿迭代可以用于求方程的根，不知道是不是因为牛顿迭代名气太大，其实这个方法和将方程一阶泰勒展开后求根是一样的，展开公式为：

令上式为0，解得：

割线法

通俗的说，牛顿法构造二次函数是对当前点进行拟合，拟合条件是一阶导数和二阶导数相等。「割线法」是构造函数二次对当前点和前一个点进行拟合，拟合条件是一阶导数相等。例如下面函数就是对

其实很简单，只是使用一阶导数模拟了二阶导数而已。

所以迭代公式可以修改为：

求方程的根

类似牛顿法求方程的根，「割线法」也是每一步都是在寻找一阶导数等于0的点，构造函数并用「割线法」替换一阶导数得到：

令其为0，解得：

顺着「割线法」的思想，其实可以构造更加复杂一些的函数，拟合更多点的一阶导数。拟合多个点（吵过2）的想法，和多级「泰勒级数」展开有异曲同工之妙。

划界法

划界法并不是一种求解极值点的方法，它是一种确定极值点区间的方法，因为前面介绍的方法中，都依赖一个前提，就是需要已知极值点一定落在了某个区间[a,b]中。

划界法的想法很简单，就是找到三个点a、b、c使得f(a)>f(b)<f(c)，这样就可以保证极值点一定是落在了a和c之间。所以当发现f(a)>f(b>)>f(c)或者f(a)<f(b)<f(c)的之后，就要确定探测的方向，重新选择一个点进行探测。如果想要减少探测过程中计算函数值的次数，可以考虑使用类似黄金分割的思想。

多维优化中的一维搜索法

终于到重点部分了，因为工业界都是「多维优化」的场景。

一维搜索的方法在多维搜索的优化问题中发挥着重要的作用，特别是对多为优化问题的迭代求解算法而言，通常每次迭代都包含一维搜索过程。通常极小点的迭代公式为：

通常可去d为梯度的反方向，

达到最小。这个时候问题就变为了一个一维优化问题，前面列举的优化算法都可以使用了。需要注意的是

所以如果d选取为梯度的负方向的话，就有：

一维搜索在实际应用中存在一些问题，首先，精确地求解

目标函数要有足够程度的下降

Armijo条件

Armijo条件（1），保证第k次迭代

Armijo条件（2），保证第k次迭代

GoldStein条件

GoldStein条件就是在Armijo条件（2）条件上稍作修改：

其中

Armijo条件（1）和GoldStein条件联合称为Armijo-GoldStein条件。

Wolfe条件

前面三个条件是通过函数值做限制，Wolfe条件是通过一阶导数限制，Wolfe条件为：

Worfe条件的一个变种，强Wolfe条件（通过绝对值限制）：

参考资料

《最优化导论》Edwin K.P.Chong Stanislaw H. Zak

「最优化」梯度方法

本文讨论的是实值函数在

负梯度

「负梯度」其实就是梯度的负方向，默认梯度的方向都是朝着函数值增加的方向。并且容易证明，梯度的方向是函数值增加最快的方向，所以「负梯度」方向就理所应当是下降最快的方向了。我们求极小值的场景中，选择负梯度方向作为搜索方向是一个很好的选择。

前面介绍过，方向梯度的公式为

此式也就证明了梯度方向是上升最快的方向。

最速下降法

「最速下降法」用一句话描述：每次一维搜索的时候选取下降最多的方法。不难证明，每次都是搜索到等高线的切线位置（等高线是光滑的椭圆），并且两次搜索的方向必定正交。

收敛性

「最优化」牛顿法

在确定搜索方向上，最速下降法只用到了目标函数的一阶导数。这种方式并非总是最高效的，在某些情况下，如果能够在迭代中引入高阶导数，其效率可能将优于最速下降法。「牛顿法」就是如此，他同时使用一阶导数和二阶导数作为搜索方向。当初始点和目标函数的极小点足够接近的时候，牛顿法的效率要优于最速下降法。牛顿法的迭代原理图：

技术分享

文章目录 [展开]

迭代公式

前提是目标函数二阶可导，将目标函数在

求此函数的极小值：

如果

上式就是牛顿迭代公式，是不是和「最速下降法」长得很像，差别就在于：最速下降法的步长是通过「一维搜索」求得，牛顿法是直接使用二阶导数（汉森矩阵）的逆作为"步长"。站在矩阵乘法的角度来看，可看做对一阶导数进行「行变换」。

牛顿法的性质分析

在单变量的情况下，如果函数的二阶导数

如果目标函数是二次型函数，此时牛顿法只需要一次就可以迭代到极小点。假设二次型函数为：

令其一阶导数为零，求得的解就是极小值点：

令其为0，发现解就是线性方程组

上式二阶导数为：

这个结论可以记住，就是二次型函数的汉森矩阵为Q（常数矩阵，和x无关），二次型大于0的条件是Q函数正定，函数有极小值也要保证汉森矩阵正定。

利用牛顿迭代式，可以得到下一个迭代点:

由此可见，牛顿法对二次型函数收敛的阶数为正无穷。

收敛性

没看懂。。挖坑先

牛顿局部下降

牛顿法本质上其实就是用一个二次函数「拟合」目标函数，然后使用求解二次函数的一些方法来求解目标函数。前面说过，原始牛顿法不能保证下一步迭代是下降的。接下来会证明，在当前点附近足够小的邻域内，牛顿法确定的方向一定是原函数的下降方向。这个结论保证了，通过对原始方法的一些修正，可以使得「牛顿法」每一次迭代都是下降的。牛顿法的「局部下降」可以使用更数学的方式定义如下：

是一个下降方向，即存在一个

成立。

下面开始证明：

构造复合函数

使用链式法则得到：

由于

根据导数本身的意义，得证。

一维搜索修正牛顿法

既然我们已经得到了一个确定会下降的方向，一种直观的想法就是确定一个合适的步长即可：

其中，

上式可以通过一维搜索求解。

当目标函数的维数n比较大的时候计算很森矩阵所需要的时间就比较多，同时还要求解汉森矩阵的逆，可以等价看做是求解线性方程组

Levenberg-Marquardt 修正

通过「一维搜索」修正了牛顿法的步长，但是如果汉森矩阵不正定，还是不能保证搜索方向是下降的。所以接下来介绍的方法是对汉森矩阵的修正。

修正之后的迭代公式为：

其中

所以，只要u足够大，肯定可以使得修正之后的矩阵G是正定的，加入以为搜索的过程后迭代公式可以写作：

如果

参考资料

《最优化导论》Edwin K.P.Chong Stanislaw H. Zak

「最优化」共轭方向法

从计算效率上来看，共轭方向法位于最速下降法和牛顿法之间。共轭方向法具体有以下特性：

对n维二次型问题，能够在n步之内得到结果
作为共轭方向法的典型代表，共轭梯度法不需要计算很森矩阵
不需要存储

文章目录 [展开]

共轭的定义

对于一个n次二次型函数

可以证明共轭的方向都是线性无关的，Q>0时，若存在一组标量

通过将上式两边同乘

基本的共轭方向算法

既然有「基本」两个字，说明这个方法适用的范围非常小。接下来介绍的时候都是针对目标函数为二次型函数。

算法迭代流程

给定初始点

技术分享

算法性能

对于任意的初始点

假设已经得到极小点

上式将

可以解得：

迭代点

由于目标函数是二次型函数，所以

因此有：

梯度和搜索方向的性质

当前梯度和历史搜索方向垂直

「最速下降法」优化过程中，当前点的梯度一定是和等高线垂直，上一步的搜索方向一定是和当前点的等高线相切。所以容易想象

由于共轭梯度法在第k步迭代的时候，可以求得当前方向最优，即：

同时也是当前「子空间」最优，此处子空间为共轭方向锁确认的子空间，记为：

由于共轭方向法可以做到每一次迭代是得到当前方向在全局最优的位置，所以有：

其中

根据负梯度的意义，是描述函数下降方向的，在已经优化过的k个方向已经达到了最优点，所以

当前梯度和未来共轭方向线性相关

用反证法，已经和「历史方向」垂直了（线性无关），肯定就和未来方向线性相关了。

共轭方向法的计算效率很高，但是前提是必须能够给一组Q的共轭方向，幸运的是存在一种方法，能够随着迭代的进行，逐一产生Q的共轭方向，无需提前指定。

共轭梯度法

前面介绍了梯度和历史「共轭方向」之间的存在正交关系，那么是否可以利用这个「关系」逐一产生共轭方向呢？

为了生成下一个共轭方向，一种很直观的想法是空间随机生成一个向量，此向量和已有的共轭方向「线性无关」，然后调整向量的方向，使得和已有共轭方向「共轭」，由于

接下来的问题就是确定向量

因为

接下来就是求解上面的线性方程组，很容易求得：

接下来的求解救水到渠成了，方向确定了之后可以通过直接求导并令导数为0求解：

接下来会证明，

当前梯度和历史梯度垂直

还是反证法，因为梯度不是0，所以如果不垂直那么在历史梯度方向一定会有下降，和前面「子空间最优」结论矛盾。所以这里可以得到更加一般的结论：共轭梯度法中「当前梯度」和历史子空间垂直（这里的历史子空间是

所以当整个搜索完成的时候，搜索的每一步梯度都是互相「正交」，方向都是互相「共轭」。

当前梯度和历史非相邻方向共轭

这是一个神奇的结论：当前梯度

由于:

将其代入得到：

非二次型中的共轭梯度法

接下来就是套路了，非二次型利用泰勒展开转化为二次型问题即可。同时为了避免计算汉森矩阵，

Hestenes-Stiefel公式

利用

Polak-Ribiere公式

利用当前梯度和历史方向正交，上式分母可以进一步化简为：

Fletcher-Reeves公式

利用当前梯度和历史梯度正交，上式分子可以化简为：

上面三个迭代公式中，虽然对二次型是等价的，但是对非二次型的表现确实不同的。实际应用中，要对共轭梯度法进行一些稍微的调整，首先在通过「最速下降法」中的停止条件（偏导数为0）并不实用，因为可能迭代好多次也不为0。所以需要选择合适的停止条件。

对于非二次型问题，共轭梯度法通常不会在n步之内收敛到极小，随着迭代的进行搜索方向将不再是Q的共轭方向，通常用的解决方法是经过几次迭代之后将搜索方向初始化为目标函数的梯度方向，然后接着搜索。

至于选择哪个公式作为搜索方向，没有定论说哪个公式一定好于另一个，不同的目标函数结论不一样。

参考文献

《最优化导论》Edwin K.P.Chong Stanislaw H. Zak

《Numerical Optimization》 Jorge Nocedal Stephen J. Wright

最优化

标签：包含 content contain span dal data history 基础上数值增加

原文地址：http://www.cnblogs.com/DjangoBlog/p/7449410.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行