感知机

时间：2015-01-28 06:12:55 阅读：114 评论：0 收藏：0 [点我收藏+]

标签：

　　感知机(Perceptron)的模型非常简单，就是学习如下一个线性分类器\begin{align*} f(\boldsymbol{x}) = sign(\boldsymbol{w}^\top \boldsymbol{x})\end{align*}为了表述方便，这里省略了截距$b$。

　　若某个样本$(\boldsymbol{x}_0, y_0)$被分错了，也即$y_0 \boldsymbol{w}^\top \boldsymbol{x}_0 < 0$，其更新策略为\begin{align*} \boldsymbol{w}_{new} = \boldsymbol{w} + y_0 \boldsymbol{x}_0 \end{align*}这是基于\begin{align*} y_0 \boldsymbol{w}_{new}^\top \boldsymbol{x}_0 = y_0 \boldsymbol{w}^\top \boldsymbol{x}_0 + \boldsymbol{x}_0^\top \boldsymbol{x}_0 > y_0 \boldsymbol{w}^\top \boldsymbol{x}_0 \end{align*}可以看出$\boldsymbol{w}_{new}$在样本$(\boldsymbol{x}_0, y_0)$上的预测值比原来要有所改善，即使最终符号还是错的，但至少值比原来更接近$0$。

　　关于感知机的收敛性有如下结论：若数据集线性可分，也即存在$\boldsymbol{w}_*$满足对于任意样本$(\boldsymbol{x}, y)$有$y \boldsymbol{w}_*^\top \boldsymbol{x} \geq 0$，那么感知机算法会在有限步内中止。

　　设$R = \max_{\boldsymbol{x}} \|\boldsymbol{x}\|$，$\rho = \min_{(\boldsymbol{x},y)} y \boldsymbol{w}_*^\top \boldsymbol{x}$，由线性可分假设知$\rho \geq 0$。一方面有\begin{align*} \boldsymbol{w}_*^\top \boldsymbol{w}_{new} = \boldsymbol{w}_*^\top (\boldsymbol{w} + y_0 \boldsymbol{x}_0) = \boldsymbol{w}_*^\top \boldsymbol{w} + y_0 \boldsymbol{w}_*^\top \boldsymbol{x}_0 \geq \boldsymbol{w}_*^\top \boldsymbol{w} + \rho \end{align*}也即每更新一次$\boldsymbol{w}$，其与$\boldsymbol{w}_*$的内积至少增加$\rho$，故递推可知$\boldsymbol{w}_*^\top \boldsymbol{w}_T \geq T \rho$。另一方面有\begin{align*} \|\boldsymbol{w}_{new}\|^2 = \|\boldsymbol{w} + y_0 \boldsymbol{x}_0\|^2 = \|\boldsymbol{w}\|^2 + 2 y_0 \boldsymbol{w}^\top \boldsymbol{x}_0 + \|\boldsymbol{x}_0\|^2 < \|\boldsymbol{w}\|^2 + \|\boldsymbol{x}_0\|^2 \leq \|\boldsymbol{w}\|^2 + R^2 \end{align*}其中第一个小于号是因为$\boldsymbol{w}$在样本$(\boldsymbol{x}_0, y_0)$上出错了，递推可知$\|\boldsymbol{w}_T\| \leq T R^2$。不妨设$\boldsymbol{w}_*$是单位化向量，也即$\|\boldsymbol{w}_*\| = 1$，于是\begin{align*} \cos \langle \boldsymbol{w}_*, \boldsymbol{w}_T \rangle = \frac{\boldsymbol{w}_*^\top \boldsymbol{w}_T}{\|\boldsymbol{w}_*\| \|\boldsymbol{w}_T\|} \geq \frac{T \rho}{\sqrt{T} R} = \sqrt{T} \frac{\rho}{R} \end{align*}又$\cos \langle \boldsymbol{w}_*, \boldsymbol{w}_T \rangle \leq 1$，故
\begin{align*} T \leq \frac{R^2}{\rho^2} \end{align*}也即最多更新$R^2/\rho^2$就可得到一个无错的线性分类器。

　　实际操作时，我们不可能事先知道一个数据集是否线性可分，因此上面的分析也仅仅是一个理想化的分析。如果数据集并不是线性可分的，那么最自然的想法应该是最小化错误率，也即所谓的$0-1$损失：\begin{align*} \min_{\boldsymbol{w}} \ \ \ \sum_{m=1}^M I_{y_m \neq sign(\boldsymbol{w}^\top \boldsymbol{x}_m)} \end{align*}可惜这个问题是NP-hard的，需要引入其他替代损失如平方损失、hinge损失等等才能求解。

感知机

标签：

原文地址：http://www.cnblogs.com/murongxixi/p/4254800.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行