黑盒子凸优化,中心法和Khachiyan常数猜想

等 
最近很迷凸几何(convex geometry),以及基于几何直觉的许多凸优化算法,写篇文章记录下一些印象比较深刻的内容。

1. 凸优化理论的简史

在90年代苏联解体之前,凸优化理论的发展体现了深深的东西方冷战的烙印。苏联优化专家发展了凸优化的几何算法,比如N.Z. Shor的 次梯度法(Subgradient method),B.T Polyak的胖球法(Heavy-ball method ), A. Nemirovski 和 D.B. Yudin 的外接椭球法(circumscribed ellipsoid method),L.G. Khachiyan的内接椭球法(inscribed ellipsoid method); 而欧美优化专家发展了凸优化的分析理论,比如J.J. Moreau的邻近算子理论(proximal operator theory), W. Fenchel的共轭分析和对偶理论(conjugate analysis, conjugate duality), 单调算子理论(monotone operator theory),标志性的成果是R.T. Rockafellar的经典不朽的集大成之作《Convex analysis》。从名称上就可以看出两大阵营粗暴地分成了几何学派和分析学派。苏联解体后,大量苏联专家移居欧美,这两类专家有机会频繁交流和合作,此后的许多结果通常体现了几何和分析的深度融合,比如90年代成熟的内点算法理论,里面既有self-concordant function之类的分析概念,也有central path之类的几何概念。



这篇文章的主要内容就是总结记录几何学派的一些研究成果。苏联解体之后,很多苏联学术刊物都被撤销了,与此同时,很多经典论文目前在网上也很难找到,比如我最近一直想读 L.G. Khachiyan的论文The method of inscribed ellipsoids的全文,然而我死活都下载不到了,如果有好心人士能找到,烦请分享给学术界。所以,这篇文章的另外一个目的就是把几何学派的经典成果分享给大家。

2. 黑盒子凸优化(Black-box convex optimization)

黑盒子凸优化是与结构凸优化(Structural convex optimization)相对而言的。结构凸优化通常是指线性规划,二次规划,锥规划之类有具体结构特征的优化问题,从Karmarkar开启内点算法革命以来,结构凸优化就一直是凸优化算法设计的主流研究。而黑盒子优化则可以看作是70年代发展起来的计算机学科的计算复杂度理论在当时渗透和影响数值优化的结果,主要研究具体算法的效率问题,即最坏情况下的时间复杂度,迭代复杂度之类,以及具体某类问题的最佳算法及其复杂度。通常前一个问题称之为方法效率分析(method efficiency),后一个问题称之为问题复杂度分析(problem complexity)[1]。

举个例子,两个人玩猜数字游戏。游戏规则是:首先A在给定范围内,比如0到1000之间,任意出一个数字;B按照某种策略每次猜一个数字,如果猜中,游戏结束,否则A告知B正确数字比当前才的数字大或者小。现在有两类问题可以研究,(1)对于具体某种策略,比如每次猜的数字加10或减10,最坏情况下,需要猜多少次?(2)对于这个问题,最佳策略是什么?与此对应,最坏情况下,需要猜多少次?这个问题表述和最佳策略(二分法)对黑盒子凸优化都有重要的启示。


方便起见,只考虑凸可行问题(convex feasibility problem)。具体而言,黑盒子凸优化的表述是:A在已知的给定范围,比如宽度为L的N维超立方体(hypercube),任意给一个“不太小”的N维凸体技术图片(convex body)。这里凸体是指实心的紧凸集:(solid compact convex set), “不太小”是指这个凸体体积满足技术图片。B每次猜一个点,如果点在凸体技术图片里,则结束,否则A给出一个通过该猜测点的超平面(hyperplane),及其对应的包含凸体技术图片的半空间(half space)。这个超平面通常称之为分离超平面(separation hyperplane)或者切平面(cutting hyperplane),因为它将该猜测点和凸体分离开来。现在的问题是,应该按照怎样的策略选择猜测点?最坏情况下,需要猜多少次?类比计算机程序,A是一个封装起来的子函数,对于函数B而言,A就是一个黑盒子。由于B是通过序贯地方式调用A, B可以依次把每次调用A的输出信息积累起来,然后综合判断,所以猜测技巧就在于如何积累信息,如何综合判断。简单起见,只考虑概念算法,也就是假定B有无穷的计算能力,并且忽略B每次综合处理的代价开销。


3. 中心法

注意到一个基本事实:不管B采用何种策略去猜测,B每次积累起来的半空间信息和已知范围技术图片的交集依然是一个凸体,我们称之为已知范围凸体技术图片,真实凸体技术图片必在技术图片内。当然,每次猜测之后,技术图片都会更新。【实际上,技术图片是有限个半空间的交集,所以技术图片是多胞体(polytope),也就是只有有限个面(facet)和有限个端点(extreme point)。】由此而来,最直觉的策略是,猜测技术图片的“中心”!


然而,问题是,什么是一个凸体技术图片的中心?以二维平面为例,对于圆,圆心可以当作中心;然而,对于最简单的缺乏对称性的凸体,比如不规则的三角形,就有重心,垂心,外心,内心,旁心之类的各种“中心”。所以,虽然“中心”是最简单的直觉,然而在没有明确地定义凸体的中心之前,“中心法”的说法毫无意义。容易忽略的一点是,即便给定”中心“的某种确切含义,当我们说"猜测中心"的时候,已经无意识地认定凸体的中心是唯一的。然而唯一性并未得到澄清,如果当中心不唯一时,"猜测中心"的说法依然是含义模糊的。


凸优化历史上,提出了多种凸体中心的概念,比如重心(centroid,center of gravity),外接椭球中心(circumcenter,center of circumscribed ellipsoid), 内接椭球中心(incenter,center of inscribed ellipsoid),切比雪夫中心(Chebyshev center,center of inscribed ball),单纯形中心(center of circumscribed simplex),分析中心(analytic center),体积中心(volumetric center)等。前五个中心是具有几何意义的,并且是唯一的;而后两个中心则依赖于代数表示,更加具体地说,同一个凸体,通过冗余的代数表示(比如同一个不等式重复多次),凸体的任意内点都可以成为分析中心或者体积中心。接下来将会分析猜测重心,外接椭球中心, 内接椭球中心的策略的效率。

3.1 重心法

1965年,苏联A.Y. Levin [3]和美国D.J. Newman [4]独立提出了重心法。对于凸体,其重心定义为技术图片.重心法的策略就是每次猜测已知范围凸体技术图片的中心,返回的超平面将技术图片分为两个子凸体技术图片技术图片,不失一般性,将包含真实凸体技术图片的子凸体标记为技术图片。这个策略的有效性由美国B. Grünbaum [5]和苏联B. S. Mityagin [6] 独立证明的凸体体积不等式保证:

对于通过技术图片维凸体技术图片的重心技术图片的任意超平面及其生成的子凸体技术图片,有技术图片.

所以,每猜测一次,已知范围的体积至少按照几何级数衰减,也就是线性收敛。更进一步,A. Nemirovski和D.B. Yudin [2] 证明,除去常数因子,线性收敛是最优的。


3.2 外接椭球法
1976年,A. Nemirovski和D.B. Yudin [7]提出了外接椭球法,通常大家都直接称之为椭球法。外接椭球法的策略是,每次猜测前,先构建外接于已知范围凸体技术图片的一个体积最小的椭球,然后猜测这个外接椭球的中心。这个策略的有效性由外接椭球体积不等式保证[8,Lemma 2.3]:

对于技术图片维欧式空间中的任意椭球技术图片和通过椭球中心的任意超平面切割成的半椭球技术图片,包含半椭球技术图片的体积最小的椭球技术图片满足技术图片.


所以,外接椭球体积也是按照几何级数收敛的。然而,不幸的是,这个收敛因子是依赖于维度技术图片的。这个结果意味着,对于高维问题,外接椭球法的收敛会非常慢。这个外接椭球法有非常强的理论意义,一个直接推断就是如果一个凸问题的次梯度是多项式时间可计算的,那么这个凸问题可以在多项式时间内近似求解到任意给定精度的。更进一步,L.G. Khachiyan在1979年用此方法证明有理数据的线性规划可以在多项式时间内求得准确解[9][10]。

3.3 内接椭球法


1988年,S.P.Tarasov, L.G. Khachiyan和I.I.èrlikh [1] 提出了内接椭球法。内接椭球法的策略是,每次猜测前,先构建内接于已知范围凸体技术图片的一个体积最大的椭球,然后猜测这个内接椭球的中心。令技术图片表示技术图片维凸体技术图片的所有内接椭球中体积最大的椭球的体积,通过该最大内接椭球中心的任意超平面切割成的子凸体记为技术图片技术图片的含义与技术图片类似。内接椭球法策略的有效性由下述不等式保证:


存在常数技术图片,使得对任意技术图片维凸体技术图片和对应的子凸体技术图片,有 技术图片
虽然现在难以阅读[1]原文,幸运的是,[11]提到[1]给出了一个常数技术图片,并且在其附录中补充了一个证明。

显然,内接椭球法也是线性收敛的,与重心法类似,但比外接椭球法要好。从算法实现性角度考虑,内接椭球法也是多项式时间可任意近似的[13][14][15],这与重心法截然不同。

4. Khachiyan常数猜想


对于内接椭球法的收敛因子,L.G. Khachiyan在[12]中证明了一个更好的结果技术图片.并且,他猜想,最佳常数是技术图片.

顶级优化大师L.G. Khachiyan在2005年去世,世界各地的专家们纷纷表示悼念,很多刊物和会议为他出版纪念专辑[16]。以示敬意,不妨将这个常数称之为Khachiyan常数,将这个猜想称之为Khachiyan常数猜想。


对于重心法和外接椭球法,对于任意维度技术图片,对应的最优体积收缩因子都有明确的表达式,而我们对内接椭球法的最优体积收缩因子与维度技术图片的关系知之甚少,而技术图片趋于无穷时是否收敛到Khachiyan常数依然是个谜。


5.参考文献


[1] Tarasov S P, Khachiyan L G, èrlikh, I. I. The method of inscribed ellipsoids[C]// Dokl. Akad. Nauk SSSR. 1988:1081-1085.

[2] Nemirovski A, Yudin D B. : Problem complexity and method efficiency in optimization[M]. Wiley, 1983:455-455.

[3] Levin A Y. On an algorithm for the minimization of convex functions[J]. Soviet Mathematics Doklady, 1965, 6.

[4] Newman D J. Location of the Maximum on Unimodal Surfaces[J]. ACM, 1965.

[5] Grünbaum B. Partitions of mass-distributions and of convex bodies by hyperplanes[J]. Pacific Journal of Mathematics, 1960, 10(4):1257-1261.

[6] Mitjagin B S. Two inequalities for volumes of convex bodies[J]. Mathematical Notes of the Academy of Sciences of the Ussr, 1969, 5(1):61-65.

[7] Judin D B, Nemirovski? A S. Informational complexity and effective methods for the solution of convex extremal problems[J]. èkonom. i mat. metody, 1976(2):357-369.

[8] Bubeck S. Convex Optimization: Algorithms and Complexity[M]. Now Publishers Inc. 2015.

[9] Khachiyan L G. A polynomial algorithm in linear programming[J]. Ussr Computational Mathematics & Mathematical Physics, 1979, 20(80):1-3.

[10] Bengt Aspvall, Richard E Stone. Khachiyan‘s linear programming algorithm [J]. Journal of Algorithms, 1979, 1(1):1-13.

[11] Wada T, Fujisaki Y. Sequential randomized algorithms: A probabilistic cutting plane technique based on maximum volume ellipsoid center[C]// IEEE International Symposium on Computer-Aided Control System Design. IEEE, 2010:1533-1538.

[12] Khachiyan L G. An inequality for the volume of inscribed ellipsoids[J]. Discrete & Computational Geometry, 1990, 5(3):219-222.

[13] Khachiyan L G, Todd M J. On the complexity of approximating the maximal inscribed ellipsoid for a polytope[J]. Mathematical Programming, 1993, 61(1-3):137-159.

[14] Anstreicher K M. Improved Complexity For Maximum Volume Inscribed Ellipsoids[J]. Siam Journal on Optimization, 2006, 13(2):309--320.

[15] Zhang Y, Gao L. On Numerical Solution of the Maximum Volume Ellipsoid Problem[M]. Society for Industrial and Applied Mathematics, 2003.

[16] Boros E, Gurvich V. Scientific contributions of Leo Khachiyan (a short overview)[J]. Discrete Applied Mathematics, 2008, 156(11):2232-2240.

编辑于 2017-07-04
「真诚赞赏,手留余香」

1 人已赞赏

技术图片
凸优化
算法复杂度
 

文章被以下专栏收录

技术图片
数学优化与算法笔记
生命短暂,我用数学优化。

推荐阅读

技术图片

【学界】黑盒子凸优化,中心法和Khachiyan常数猜想

技术图片

带约束凸优化最优解的存在条件——KKT条件(五)

技术图片

Karush-Kuhn-Tucker (KKT)条件

技术图片

凸优化笔记20:对偶分解

5 条评论

  • 技术图片
    甄景贤2017-07-03

    Khachiyan 的 1979 algorithm 启示了 Karmarkar 到 1984 才发现实际应用上收敛得比较快的算法。 科技的发展很缓慢,由几个大师接力才得到进步。 希望我们这网络年代能加速这种接力赛 ??

  • 技术图片
    又红又正2017-07-04
    非常好,学习了
  • 技术图片
    乌鸦2018-04-23

    你好~我是在您的专栏上看到了您写的文章《黑盒子凸优化,中心法和Khachiyan常数猜想》,有一点问题想跟你咨询一下,如果您看到了方便私信我这个小读者一下吗?谢谢啦 期待~

  • 技术图片
    w www2018-08-21
    请问一下 关于 黑盒子凸优化 这些内容,有没有推荐的书呀?
  • 版主您好,能介绍一下张高勇教授的相关工作吗?他可以算是华人里面凸几何分析做的最杰出的了