SIGAI机器学习第四集基本概念

时间：2019-11-30 18:55:39 阅读：98 评论：0 收藏：0 [点我收藏+]

标签：贝叶斯算法标准建模另一个优化二分 boost 概念

大纲：

算法分类
有监督学习与无监督学习
分类问题与回归问题
生成模型与判别模型
强化学习
评价指标
准确率与回归误差
ROC曲线
交叉验证
模型选择
过拟合与欠拟合
偏差与方差
正则化

半监督学习归类到有监督学习中去。

有监督学习大部分问题都是分类问题，有监督中的分类问题分为生成式模型和判别模型。

分类问题常用的评价指标是准确率，对于回归问题常用的评价指标是回归误差均方误差。

二分类问题中常为它做ROC曲线。

过拟合通用的解决手段是正则化。

算法分类：

监督信号，就是样本的标签值，根据知否有标签值将机器学习分类为有监督学习、无监督学习、半监督学习。

有监督学习与无监督学习：

有监督学习分两个过程：训练和预测。

预测根据输入样本(x,y)，训练出一个模型y=f(x)来预测新的样本的标签值。

无监督学习：聚类和数据降维。

数据降维是为了避免维数灾难，高维数据算法处理起来比较困难，数据之间具有相关性。

强化学习：

是从策略控制领域诞生出来的一种算法，它根据环境数据预测动作，目标是最大化奖励值。

分类问题与回归问题：

有监督学习分为分类问题和回归问题，如判断一个水果的类别就是分类问题，根据个人信息预测收入就是回归问题。

分类问题：

Rⁿ-->Z，把n维向量映射为一个整数值，该值对应一个分类。

人脸检测就是而分类问题，图像中某个位置区域是人脸还是不是人脸。

二分类问题最简单办法是找到一个直线方程进行分类，线性分类器sgn(w^Tx+b)，输出+1或-1。

回归问题：

Rⁿ-->R，R是要预测的实数值。

最简单的算法是线性回归f(x)=w^Tx+b，相比分类问题省去了sgn函数。

损失函数也叫误差函数，技术图片，几乎对于所有的有监督学习，它的目标都是最小化损失函数或者最大化的对数似然函数，在确定了这个优化目标以后，工作就完成一半了，剩下的就是完成最优化求解问题了，可以标准的算法如梯度下降法、牛顿法等，根据自己算法的特点选用一个合适的最优化算法来求解，这是标准化的流程，求解完之后，就求解出了f(x)参数值完成了训练，之后就可以用f(x)来预测新的样本用来做分类或者回归。

线性回归：

技术图片，是一个线性函数。

技术图片

训练的目标是最小化均方误差MSE，训练的时候要求解的是一个无约束条件的凸优化问题（要证明是均方误差损失函数是凸函数，就要证明它的Hession矩阵半正定），凸优化问题就可以找到L的全局极小值点。

证明MSE损失函数是凸函数：

求L的Hession矩阵：

技术图片

1/lX^TX矩阵对应的二次型为x^T1/lX^TXx，即1/l(x^TX^T)(Xx)，即(Xx)^T(Xx)，由于(Xx)^T是一个行向量，(Xx)是列向量，它们两个相乘是向量做内积，大于等于零，所以Hession矩阵半正定，所以MSE损失函数L是凸函数，存在全局极小值点。

生成模型与判别模型：

对于分类问题按照求解思路可以把它分为两种类型：

①判别模型，直接根据函数判断它是属于哪一个模型。

第一种是y=f(x)，直接根据一个预测函数sgn(w^T+b)预测出标签值y来。

第二种是p(y|x)，算它的后验概率，根据特征x计算它属于每个类的概率，根据特征反推它所属的类，这就是后验概率。

②生成模型

对x、y联合分布建模，p(x,y)=p(x|y)p(y)，即假设x服从某种分布对p(x|y)、p(y)进行建模。

生成模型的另一种定义是用来生成数据的算法，如GAN。

判别模型和生成模型区别：

判别模型是求p(y|x)，生成模型是求p(x|y)。

学习的大部分的分类算法都是判别模型。

生成模型：贝叶斯分类器，高斯混合模型，隐马尔可夫模型，受限玻尔兹曼机，生成对抗网络等。
判别模型：决策树，kNN算法，人工神经网络，支持向量机，logistic回归，AdaBoost算法等（虽然logistic中用到概率了，但是它是直接计算的p(y|x)，即样本属于某类的概率，并没有假设x服从某种概率分布对p(x|y)、p(y)进行建模）。
在解决分类问题时是有本质区别的：

判别模型直接找一个分界线出来，至于两边样本服从哪一种分布，哪里密集哪里稀疏并不关注。生成模型是先算出两边样本服从的分布，再来算样本属于某个类的概率的。

评价指标：

因为要比较算法的优劣，所以引入评价指标。对于同一类问题可能有不同的算法都可以解决它，要判断哪一种算法更好，其中衡量的一个依据就是它的准确率或是叫精度，还有另一个指标是算法的速度。

对于分类和回归问题它的精度的定义是不一样的。

对于分类问题用准确率表示，即正确分类的样本数/测试样本总数，样本分为训练集和测试集，用测试集（和训练集不相交）来统计准确率，因为用训练集统计准确率是没有意义的。

回归误差是回归问题的评价指标，因为分类问题是一个是和否的问题，而回归问题它是一个连续实数值，不能用是和否来回答，所以用回归误差技术图片。