高斯函数与正态分布 高斯函数或者说正态分布函数在很多场合都得到广泛应用,其是概率论和统计学的核心,在最大似然估计、贝叶斯估计中必不可少。其也是稀疏贝叶斯估计的重要基础。下面对高斯函数的一些基本知识点进行归纳和总结,不当之处,欢迎批评指正。 (1) 高斯函数高斯函数定义如下\begin{equatio ...
分类:
其他好文 时间:
2019-05-13 09:17:03
阅读次数:
185
sklearn中的降维算法PCA和SVD 1 概述 1.1 从什么叫“维度”说开来 1.2 sklearn中的降维算法 2 PCA与SVD 2.1 降维究竟是怎样实现? 2.2 重要参数n_components 2.2.1 迷你案例:高维数据的可视化 2.2.2 最大似然估计自选超参数 2.2.3 ...
分类:
编程语言 时间:
2019-03-19 10:41:12
阅读次数:
1183
机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的。 熵和交叉熵 提到交叉熵就需要了解下信息论中熵的定义。信息论认为: 确定的事件没有信息,随机事件包含最多的信息。 事件信息的定义为:$I(x) ...
分类:
其他好文 时间:
2019-03-13 18:02:58
阅读次数:
265
贝叶斯里面的参数原理 最大似然: 即最符合观测数据的最有优势,即p(D|h)最大 奥卡姆剃刀:即越常见的越有可能发生,即p(h) 表示的是先验概率 最大似然: 当我们投掷一枚硬币,观测到的是正面,那么我们猜测投掷正面的概率为1,即最大似然值的概率是最大的 奥卡姆剃刀: 如果平面上有N个点,我们使用n ...
分类:
其他好文 时间:
2019-01-18 19:59:07
阅读次数:
224
1.最小二乘法解的的推导,几何意义解释最小二乘法 2.从概率的角度解释最小二乘法 结论:最小二乘法等价于最大似然估计(条件是噪音需要满足高斯分布) 3. L2正则化 岭回归 4. 从概率的角度看正则化 结论:正则化之后的最小二乘法等价于最大后验概率估计(条件是噪音和先验分布都满足高斯分布) ...
分类:
其他好文 时间:
2019-01-15 17:12:00
阅读次数:
233
theta是个未知的常量,X是随机变量, MLE最大似然估计 MAE最大后验概率 统计机器学习,优化问题 1)建立模型、概率 2)定义损失函数 3)梯度下降/牛顿法求解 概率图模型 求积分(用蒙特卡洛方法取样) ...
分类:
其他好文 时间:
2019-01-15 16:59:51
阅读次数:
314
似然与概率 https://blog.csdn.net/u014182497/article/details/82252456 在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几 ...
分类:
其他好文 时间:
2019-01-10 21:48:55
阅读次数:
172
朴素贝叶斯naive bayes是直接生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y)P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)/P(X)得出。 数学基础: 1. 最大似然估计 ...
分类:
编程语言 时间:
2018-12-24 18:12:45
阅读次数:
177
这涉及到数学的概率问题。 二元变量分布: 伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率 ...
分类:
其他好文 时间:
2018-12-19 23:24:42
阅读次数:
257