基础知识

时间：2020-07-11 17:41:45 阅读：41 评论：0 收藏：0 [点我收藏+]

标签：策略 block 基础上 ide 模型训练简单 span 模型选择 www

我的个人笔记是用typora排版，所以存在差异，直接复制粘贴存在问题
下面资料是个人总结，势必存在错误，不要偏信，千万不要！
如果你愿意分享可以提出我的错误，感谢。

基础知识

1. 介绍机器学习

最小二乘法：$E(\omega) = \frac{1}{2} \sum_{n=1}^{N} \{y(x_n,\omega)-d_n\}^2$

? 利用最小二乘法描述误差，现有N个采样点$(x_n,d_n)$，以及拟合的曲线函数$y(x_n, \omega)$，总误差就是采样点和拟合曲线上的对应点的误差平方和。
拟合曲线：$y(x,\omega) = \underbrace{\omega_0 + \omega_1x + \omega_2x^2+\omega_3x^3+...+\omega_Nx^N}_{N+1}$

? 拟合曲线通过修改$\omega$以及曲线阶数实现拟合，N阶曲线函数如上式所示，各项系数组成调整参数$\omega$。阶数越高曲线能够拟合的能力越大，模型越复杂。
过拟合和欠拟合

? 出现在选取不同复杂程度模型进行训练的过程中：
- 随之模型复杂度的增加，训练误差和测试误差均下降，且误差都很大的情况属于欠拟合；
- 随之模型复杂度的增加，训练误差下降，但是测试误差反而上升，且测试误差较大时，此时属于过拟合
- 在欠拟合到过拟合的过程中会存在平缓的区域，可以看作是较好的的模型选择，此时的训练误差和测试误差都较小。
  
  解决欠拟合的方法是增加模型复杂度，解决过拟合的方法是增加数据量。

2. 介绍线性代数

可逆矩阵的性质：
1. 可逆矩阵一定是方阵
2. 如果矩阵可逆，其逆矩阵是唯一的
3. 可逆矩阵的行列式非0
4. 矩阵可逆仅当其是满秩矩阵，可逆矩阵也称为非奇异矩阵、满秩矩阵
5. 矩阵中的行非线性相关
6. 两个可逆矩阵的乘积依然是可逆矩阵
7. 可逆矩阵的转置矩阵也可逆，且其逆矩阵是可逆矩阵的逆矩阵的转置
可以说可逆矩阵是由一组有唯一解的线性方程组系数组成；唯一解也对应非线性相关，以及行列式非0，满秩条件。
矩阵的秩

? 在线性代数中，一个矩阵A的列秩是A的线性独立的纵列的极大数目。类似地，行秩是A的线性无关的横行的极大数目。方阵列秩和行秩总是相等的，因此它们可以简单地称作矩阵A的秩。
行列式和秩

行列式非0等同于方阵满秩，等同于矩阵行无相关性，等同于唯一解。（注：题外话，非方阵也可以满列秩或满行秩，但是只有方阵才有行列式和逆矩阵存在）
方阵A非奇异的等价条件：
- A是可逆矩阵
- $A^TA$是可逆的
- A的行列式非0
- A的秩等于n，A满秩
- A的转置$A^T$也是可逆的
- A代表的线性变换是个自同构
- 存在一个n阶方阵B满足条件，$AB=I_n$以及$BA=I_n$
- A的任意特征值非零
矩阵的行列式：方阵A的行列式用$det(A)$或$|A|$表示。行列式可以看做是有向面积或体积的概念在一般的欧几里得空间中的推广。利用代数余子式求矩阵的行列式：已知方阵A如下所示

$\pmatrix{a_{11}&a_{12}&a_{13}&...&a_{1n} \\ a_{21} &a_{22}&...&...& a_{2n} \\ ...&&&&... \\ a_{n1}&a_{n2}&...&...& a_{nn}}$

$|A|=\sum_{j=1}^n(-1)^{(1+j)}a_{1j}S_{1j}$，$S_{1j}$指$a_{1j}$的代数余子式，是去除第一行第j列后形成的子矩阵的行列式，依次类推直到2阶方阵行列式或3阶方阵的行列式。
- 2阶方阵行列式：$a_{11}a_{22}-a_{12}a_{21}$
欧几里得范数(2范数)：
- 向量的2范数：$||x||=\sqrt{x_1^2+x_2^2+x_3^2+...+x_n^2}$
- 矩阵的2范数：$||A|| = \sqrt{\lambda}$，$\lambda$是$A^TA$的最大特征值
- matrix cookbook说向量的2范数的平方有$||x||_2^2=x^H x$，$x^H$是转置复共轭矩阵，对于常数矩阵有$||x||_2^2=x^Tx$
- 特征值：设 A 是n阶方阵，如果存在数$\lambda $和非零n维列向量x，使得 $Ax=\lambda x$ 成立，则称$\lambda $是A的一个特征值（characteristic value)，非零n维列向量x称为矩阵A的属于特征值$ \lambda $的特征向量或本征向量。
- 矩阵的迹：对于N阶方阵的迹可以表示为$tr(A) = \sum_{i=0}^N a_{ii}$，也就是方阵对角线的和
  - 迹是所有对角元素的和
  - 迹是所有特征值的和
  - 某些时候也利用tr(AB)=tr(BA)来求迹
  - $tr（mA+nB）=m tr（A）+n tr（B）$
韦达定理

设一元二次方程$ax^2+bx+c=0$，则两个根$x_1,x_2$有如下关系：
- $x_1+x_2=-\frac{b}{a}$
- $x_1x_2=\frac{c}{a}$
- 原理是$x=\frac{-b\pm \sqrt{b^2-4ac}}{2a}$
韦达定理不仅可以说明一元二次方程根与系数的关系，还可以推广说明一元n次方程根与系数的关系。对于一元n次方程$a_0+a_1x+a_2x^2+...+a_{n-1}x^{n-1}+a_nx^n=0$，有：
- $x_1+x_2+x_3+...+x_n=-\frac{a_{n-1}}{a_n}$
- $x_1x_2x_3...x_n=(-1)^n\frac{a_0}{a_n}$
对于求方阵$A_{n*n}$的特征值$Ax=\lambda {x}$，A的特征值是$det(A-\lambda{I})=0$，解得是$\lambda$，所以得到是一元n次方程。其中只有$(a_{11}-\lambda)(a_{22}-\lambda)...(a_{nn}-\lambda)$中含有$\lambda^n$和$ \lambda^{n-1}$，而$\lambda^n$的系数为$(-1)^n$，$\lambda^{n-1}$的系数为$(-1)^{n-1}\sum_{i=1}^{n}{a_{ii}}$，所以根据韦达定理所有特征根的和解得为：

$\sum_{i=1}^n \lambda_i=-\frac{(-1)^{n-1}\sum_{i=1}^{n}{a_{ii}}}{(-1)^n}=\sum_{i=1}^{n}{a_{ii}}=tr(A)$

所以方阵的迹是方阵特征值的和。
2范数是凸函数所以可以通过求导得到极小值点
求解$Ax=b$（A是一个矩阵，b是一个列向量）实质上就是求$||Ax-b||^2$的最小值，所以对x求导得到极小值。因为$Ax-b$是列向量，所以有$||Ax-b||^2 = (Ax-b)^T(Ax-b)$，所以有：

$||Ax-b||^2=(x^TA^T-b^T)(Ax-b)=(x^TA^TAx-x^TA^Tb-b^TAx+b^Tb)$

因为$x^TA^Tb$是标量所以其转置就是本身即$x^TA^Tb=b^TAx$，因此上式转换为$(x^TA^TAx-2x^TA^Tb+b^Tb) $。

另外，因为$\frac{\partial x^TAx}{\partial x}=(A+A^T)x$，$\frac{\partial a^TXb}{\partial X}=ab^T$，$\frac{\partial a^TX^Tb}{\partial X}=ba^T$因此得到：

$\frac{\partial ||Ax-b||^2}{\partial x}=2A^TAx-2A^Tb=2A^T(Ax-b)$，令导数为0得到极小值点$\widehat{x}=(A^TA)^{-1}A^Tb$。

但是如果$(A^TA)$不是可逆方阵就会出现问题，得到不到极小值点，所以可以添加一个项$\Gamma$帮助运算，$\Gamma=\alpha I$得到$||Ax-b||^2+||\Gamma x||^2$，导数为$2(A^TA+\Gamma ^T \Gamma)-2A^Tb$，假设$(A^TA+\Gamma^T\Gamma)$是可逆方阵，得到：

$\widehat{x}=(A^TA+\Gamma^T\Gamma)^{-1}A^Tb$，这里面的$\Gamma$就是岭回归系数。
岭回归

? 有时训练样本数量少，这样将导致数据矩阵无法求逆；又比如样本特征中存在大量相似的特征，导致很多参数所代表的意义重复，线性相关性导致行列式非0。这个时候，我们就应用结构风险最小化的模型选择策略，在经验风险最小化的基础上加入正则化因子。当正则化因子选择为模型参数的二范数的时候，整个回归的方法就叫做岭回归。
正则化
已有最小二乘法误差表达式$E(\omega) = \frac{1}{2} \sum_{n=1}^{N} \{y(x_n,\omega)-d_n\}^2$，训练时$d_n$理解为列向量，所以有$E(w)=\frac{1}{2} \{y(x,w)-d\}^T\{y(x,w)-d\}=\frac{1}{2}||y(x,w)-d||^2$。

? 过拟合的实质就是数据集没有那没多的特征，或者说数据集小、数据集内数据相关性大。通过正则化可以解决模型训练的过拟合的问题，我们希望得到能使误差最小的$w$值，2范数是凸函数，存在极小值，所以可以直接求导，假设$y(x,w)=Xw$，于是有$E(w)=\frac{1}{2}||Xw-d||^2$，根据二中介绍的矩阵求解得到$\widehat E(w)=X^T(Xw-d)$，这里就存在$X^TX$是否可逆的问题，可以通过增加正则项，也就是之前的岭回归项来使$X^TX$可逆，也就得到了：$E(w)=\frac{1}{2} ||Xw-d||^2+\frac{\lambda}{2}||w||^2$。已知对于向量x有$\frac{\partial ||x||^2}{\partial x}=2x$，$w$本身是系数列向量，所以有$\widehat E(w)=(X^TX+\lambda I)w-X^Td$，所以得到极小值点为$w=(X^TX+\lambda I)^{-1}X^Td$，我们称$\frac{\lambda}{2}||w||^2$为正则项。正则化项的实际效果体现在降低$w$的值

3. 介绍统计

均值：$\bar x=\frac{1}{N} \sum_{i=1}^N x_i$
方差：$S^2 = \frac{1}{N-1}\sum_{i=1}^N(x_i-\bar x)^2$
协方差：$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\frac{1}{N-1}\sum_{i=1}^N(x_i-\bar x)(y_i-\bar y)$
- 方差是协方差的一种特殊情况（计算$Cov(X,X)=S^2(x)$）
协方差矩阵：$Cov(X,Y,Z)=\pmatrix{Cov(X,X) & Cov(X,Y) & Cov(X,Z) \\ Cov(Y,X) & Cov(Y,Y) & Cov(Y,Z) \\ Cov(Z,X) & Cov(Z,Y) & Cov(Z,Z)}$
- 协方差矩阵中的每一个元素对应每两个序列之间的协方差
- 对一个$m*n$的矩阵，其协方差矩阵为$n*n$的方阵
散度矩阵：$S=\sum_{i=1}^N(x_i-\bar x)(x_i-\bar x)^T=XX^T$
- 协方差矩阵和散度矩阵关系密切，散度矩阵就是协方差矩阵乘以（总数据量-1）

4. 介绍概率

联合概率：$P(A,B)=P(A|B)P(B)$
条件概率：$P(A|B)=P(A,B)/P(B)$
边缘概率：$P(A)=\sum_B P(A|B)P(B)$
贝叶斯公式：$P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}$
均值：$E(f)=\sum_x p(x)f(x)$
条件均值：$E(f|y)=\sum_x p(x|y)f(x)$
方差：$var(f)=E[( f(x)-E(f) )^2]=E(f^2)-E(f)^2$
协方差：$cov(x,y)=E\{ [x-E(x)][y-E(y)]\}=E(xy)-E(x)E(y)$
矩阵协方差：$cov(X,Y)=E\{ [X-E(X)][Y^T-E(Y^T)]\}=E(XY^T)-E(X)E(Y^T)$
一元高斯概率分布：
- $N(x|\mu,\sigma^2)=\frac{1}{(2\pi \sigma^2)^{1/2}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}$
- $E(x)=\mu$
- $E(x^2)=\mu^2+\sigma^2$
- $var(x)=E(x^2)-E(x)^2=\sigma^2$
多元高斯概率分布：
- $N(X|\mu,\Sigma)=\frac{1}{(2\pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}}exp\{ -\frac{1}{2} (x-\mu)^T\Sigma^{-1} (x-\mu)\}$

参考资料：
[1]: 正则化项
[2]: 矩阵和向量的范数
[3]: 协方差

基础知识

标签：策略 block 基础上 ide 模型训练简单 span 模型选择 www

原文地址：https://www.cnblogs.com/oneflyleader/p/13284150.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行