逻辑回归（Logistic Regression, LR）

时间：2019-09-01 14:52:04 阅读：76 评论：0 收藏：0 [点我收藏+]

标签：极大似然估计 sign 最优似然函数特征推广归并局部最优 log

1、什么是逻辑回归；

2、逻辑回归的流程及推导；

3、逻辑回归的多分类

4、逻辑回归VS线性回归

5、逻辑回归 VS SVM

1、什么使逻辑回归；

名为回归，实际是分类，通过计算$P(y=0|x;\theta )$的大小来预测分类类别，预测的是类别0，1，而不是概率，但计算的是概率；$0\leq P(y=0|x;\theta )\leq 1$，是个概率值，本身并没有非0即1的概念；

二项逻辑回归：x是输入，y是输出；

$P(y=0|x)=\frac{1}{1+e^{-z}}$

$P(y=0|x)=\frac{1}{1+e^{-(\omega x+b)}}$

$P(y=1|x;\theta )+P(y=0|x;\theta )=1$

$z=\omega x+b$

$\frac{\partial z}{\partial w}=x$
$\frac{\partial z}{\partial b}=1$

logistic ：对数几率函数

几率：发生的概率p/不发生的概率1-p$\frac{p}{1-p}$

对数几率：$logit(p)=\log \frac{p}{1-p}=\omega x$

$\omega x+b=0$即决策边界；

当p>1-p时，$ \frac{p}{1-p}>1$，$\log \frac{p}{1-p}>0$，即$\omega x>0$;

当p<1-p时，$ \frac{p}{1-p}<1$，$\log \frac{p}{1-p}<0$，即$\omega x<0$;

$z=\omega x+b$

当$z\geq 0$时，$g(z)\geq 0.5$，$y=1$

当$z< 0$时，$g(z)< 0.5$,$y=0$

2、逻辑回归的流程及推导；

模型参数估计:（用似然函数估计模型参数）

损失函数:$\prod_{i=1}^{N}p^{y_{i}}(1-p)^{1-y_{i}}$（此形式被称为交叉熵损失）

写对数似然函数，求其最大值；

梯度下降法，求w;

带入P(y=k|x;\theta )进行分类；

推导：

似然函数：$L=p^{y_{i}}(1-p)^{1-y_{i}}$

对数似然函数：$L=p{y_{i}}+(1-p)({1-y_{i}})$

从求对数似然函数的最大值，转换成求最小值：

$L=-(p{y_{i}}+(1-p)({1-y_{i}}))$

通过梯度下降法来求：

$\frac{\partial L}{\partial p}=-\frac{y_{i}}{p}+\frac{1-y_{i}}{1-p}$

$p=\frac{1}{1+e^{-z}}$

$\frac{\partial p}{\partial z}=\frac{e^{-z}}{(1+e^{-z})^{2}}=p(1-p)$

$\frac{\partial z}{\partial w}=x$
$\frac{\partial z}{\partial b}=1$

$dw=(p-y_{i})x$

$db=(p-y_{i})$

3、逻辑回归的多分类

方法一：相当于做N个两分类：

1VS23,$h_{\theta }^{1}(x)$

2VS13,$h_{\theta }^{2}(x)$

3VS12;$h_{\theta }^{3}(x)$

求最大的$h_{\theta }^{i}(x)$对应的类别；

方法二：把sigmoid函数换成softmax

技术图片

这时候，softmax回归算法的代价函数如下所示（其中 $技术图片$ ）：

$技术图片$

很明显，上述公式是logistic回归损失函数的推广。

我们可以把logistic回归的损失函数改为如下形式：

$技术图片$

然后再用梯度下降法求就可以了。

4、逻辑回归VS线性回归

线性回归：

$f(x_{i})=\omega x_{i}+b$，使得$y_{i}\approx f(x_{i})$

最小二乘法求参数

线性回归一般用平方差误差函数（源于极大似然估计），

但对于逻辑回归它是非凸函数，只有局部最优解；

逻辑回归代价函数用交叉熵（源于极大似然估计），原因：凸函数，有全局最优解；

不同点：

1、逻辑回归分类，线性回归是回归；

2、逻辑回归因变量是离散的，线性回归因变量是连续的；

逻辑回归并不是线性回归加激活函数

$h_{\theta }(x)=g(\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{1}^{2}+\theta _{3}x_{2}^{2})$

通过在特征中使用多项式，可以得到更多更复杂的边界，而不只是线性划分；

决策边界不是训练集的属性，而是假设本身$h_{\theta }(x)$及其参数的属性；

非线性模型，但本质是线性分类模型；

线性回归上添加sigmoid映射，估计$P(y=1|x)$的概率来分类；

$\omega x+b=0$为决策边界，分为实现线性的；

例如：

$\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}=0$

$\theta _{0}+\theta _{1}x_{1}^{2}+\theta _{2}\sqrt{x_{2}}=0$

看似不是线性的，但只是对变量做了变化；

如$t_{1}=x_{1}^{2},t_{2}=\sqrt{x_{2}}$

$\theta _{0}+\theta _{1}t_{1}+\theta _{2}t_{2}=0$

5、逻辑回归 VS SVM

$$g(z)=\frac{1}{1+e^{-z}}$$

$$P(y=0|x;\theta )=\frac{1}{1+e^{-(wx+b)}}$$

$h(x)=$对于输入x，预测结果为1的概率（参数为$\theta$时）$=P(y=1|x;\theta )$

LR也可以像SVM一样，用kernel进行变量转换，解决分线性问题；

但LR易过拟合，因为LR的VC维随变量线性增长；

SVM不易过拟合，因为SVM的VC维随变量对数级增长；

逻辑回归（Logistic Regression, LR）

标签：极大似然估计 sign 最优似然函数特征推广归并局部最优 log

原文地址：https://www.cnblogs.com/danniX/p/10720198.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行