Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

时间：2019-12-13 23:41:52 阅读：97 评论：0 收藏：0 [点我收藏+]

标签：inline mon ref process cal mini image 一个 vpd

引
主要内容

Safran I, Shamir O. Spurious Local Minima are Common in Two-Layer ReLU Neural Networks[J]. arXiv: Learning, 2017.

@article{safran2017spurious,
title={Spurious Local Minima are Common in Two-Layer ReLU Neural Networks},
author={Safran, Itay and Shamir, Ohad},
journal={arXiv: Learning},
year={2017}}

引

文章的论证部分让人头疼，仅在这里介绍一下主要内容. 这篇文章关注的是单个隐层, 激活函数为ReLU的神经网络, 且对输入数据有特殊的限制, 数据为:
\[ \sum_{i=1}^k [\mathbf{v}_i^T\mathbf{x}]_+, \]
其中\(\mathbf{v}_i\)是给定的, 而\(\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\). 而这篇文章考虑的是:
技术图片
即, 这个损失函数是否具有局部最优解.

主要内容

定理1

技术图片
注意, \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\)是正交的, 且\(n=k\). 这个时候，损失函数是有局部最优解的, 不过在后面作者提到, 如果\(n>k\), 即overparameter的情况, 这个情况是大大优化的, 甚至出现没有局部最优解(不过是通过实验说明的).