Logistic Regression‘s Cost Function & Classification (2)

时间：2017-03-07 22:38:34 阅读：371 评论：0 收藏：0 [点我收藏+]

标签：tle bsp height 回归同步 lin 产生 rgb ica

一、为什么不用Linear Regression的Cost Function来衡量Logistic Regression的θ向量

回顾一下，线性回归的Cost Function为

我们使用Cost函数来简化上述公式：

那么通过上一篇文章，我们知道，在Logistic Regression中，我们的假设函数是sigmoid形式的，也就是：

这样一来会产生一个凸(convex)函数优化的问题，我们将g(z)带入到Cost函数中，得到的J(θ)是一个十分不规则的非凸函数，如图所示，如果使用梯度下降法来对该非凸函数进行优化的话，很有可能会导致非常糟糕的局部最优解现象。

二、Logistic Regression的损失函数（单分类）

上面说到，为了避免尴尬的局部最优问题，我们希望Cost 函数能够是一个完美的凸函数，让我们方便准确地进行凸函数优化，求得的局部最优解，往往便是全局最优解。因此，万能的专家们想到了-log这么个函数变换，把我们的假设函数，进行变换，得到一个凸函数形式的Cost函数。

看图像，左边的是y=1的代价随假设函数值大小的变化而变化的图，反之，右边的为y=0的代价随假设函数值大小的变化而变化的图。这里需要说明的是h(x)，也就是我们的假设函数，由于使用了sigmoid模型，所以其取值必然是介于[0,1]这一范围的。我们可以清楚地看到，通过-log变换，所得到的Cost 函数图像确实是我们想要的凸函数。

但是，这里有一些问题，当y=1的时候，如果我们的假设函数的值在0左右的话，那么Cost 函数所带来的代价几近无穷，反之当y=0的时候，如果我们的假设函数的值在1左右的话，那么Cost 函数所带来的代价同样几近无穷。