softmax回归（理论部分解释）

时间：2015-01-12 22:16:49 阅读：302 评论：0 收藏：0 [点我收藏+]

标签：

前面我们已经说了logistic回归，训练样本是，（且这里的是d维，下面模型公式的x是d+1维，其中多出来的一维是截距横为1，这里的y=±1也可以写成其他的值，这个无所谓不影响模型，只要是两类问题就可以），训练好这个模型中参数θ以后（或者是这个模型，这俩是一个模型），然后给入一个新的，我们就可以根据模型来预测对应label=1或0的概率了。

前面处理的是两类问题，我们想把这个两类问题扩展，即根据训练好的模型，给入一个新的，我们就可以根据模型来预测对应label=1,2，…k等多个值的概率。我们首先也是最重要的部分是确定这个新的模型是什么。对于一个x，新的模型（j=1，2..k）要加起来等于1.

我们假设新模型为：

……………………………………..……………………………………………………………………(1)

（这里模型中的是经过前面的处理后的，每一个都增加了一维）

其中 $技术分享$ 是模型的参数在实现Softmax回归时，将 $技术分享$ 用一个 $技术分享$ 的矩阵来表示会很方便，该矩阵是将 $技术分享$ 按行罗列起来得到的，如下所示：

$技术分享$

这里说一个问题：在logistic回归中，是两类问题，我们只用了一个θ，这里我们是不是也可以只用k-1个θk就可以表示所有的模型呢？具体就是我们只需要把置为0.所以=1，这样带入公式（1）中就可以少使用一个，我们验证一下，如果k=2即两类问题时，这个模型就退化成logistic回归，我们令θ2=0，那么我们得到：

，，得证。所以说我们的 $技术分享$ 参数矩阵确实存在参数冗余，这个问题，下面还会继续说。

接下来我们要做的是求cost function：

我们知道logistic的cost function（不加约束项）为，即把每个样本带入其label 对应的模型公式里（的label是1，就把代入，是0就代入），然后把所有样本带入模型得到的结果相乘再取对数log（对数运算也就是每个样本带入模型得到的结果再相加），取平均。我们这里同样这样做，只是因为这里类别计较多，我们使用一个”示性函数‘’来使公式表达整洁：

$技术分享$ 是示性函数，其取值规则为： $技术分享$ 值为真的表达式 $技术分享$ ， $技术分享$ 值为假的表达式 $技术分享$ 。

举例来说，表达式 $技术分享$ 的值为1 ， $技术分享$ 的值为 0。

我们的代价函数为（不加约束项）：

$技术分享$

我们知道对logistic回归模型的cost function 最小化，这里以梯度下降法进行说明：

这里的θ是一个k*（n+1）的矩阵，对应着模型里面的所有参数，我们现在有一个θ参数矩阵值

，那么我们通过梯度下降法得到的新的θ’参数矩阵值是多少呢，怎么求？是这样的，比如我们更新θ（1,1）这个参数目前对应的值，

首先我们求对θ（1,1）这一个参数的偏导：

求导得到的是一个数（即把所有和目前的θ参数矩阵值带入左边这个公式得到的结果即是，而不是还需要θ的第一个元素增加一个增量什么的，因为这里已经对θ（1,1）求导了）。有的地方是按梯度更新的，梯度是一个向量，但梯度也是分别对每一个参数求导得到的数，然后组成的向量。这里这么写是为了便于理解（在程序中还是以矩阵运算进行的，所以跟这个公式会有出入，但是核心思想是一样的）。然后新的θ’参数矩阵值的第一个元素θ’（1,1）=θ（1,1）-a。然后利用同样的方法得到新的参数矩阵值θ’的其他元素θ’（v，u）。我们得到θ’后，我们按这种方法再次迭代得到新的参数矩阵值θ”…..最后得到使收敛的模型参数。

这时候我们讨论一下前面提到的参数冗余问题：

现在我们模型的参数矩阵θ求好了，那么我们有一个样本，我们想求下这个样本对应的label等于各个i（i=1，2…k）的概率即利用。

这时候我们让矩阵θ的每一行 $技术分享$ 都变成 $技术分享$ ( $技术分享$ )。那么对任意的j，j∈ $技术分享$ ，有

也就是说参数矩阵θ的每一行 $技术分享$ 都减去减去某一个常向量得到新的参数矩阵θ’,那么这两个参数矩阵是等价的，即一个样本对应的label等于各个i（i=1，2…k）的概率在两个参数矩阵下是一样的。这时候我们假设如果参数 $技术分享$ 是代价函数 $技术分享$ 的极小值点，那么 $技术分享$ 同样也是它的极小值点，其中 $技术分享$ 可以为任意向量。因此使 $技术分享$ 最小化的解不是唯一的。（有趣的是，由于 $技术分享$ 仍然是一个凸函数，如果是只是用梯度下降法的话，不会遇到局部最优解的问题。但是 Hessian 矩阵是奇异的/不可逆的，这会直接导致采用牛顿法优化就遇到数值计算的问题，所以我们还是要寻找在使用梯度下降、牛顿法或其他算法时都可以解决参数冗余所带来的数值问题的办法）