机器学习算法及代码实现–支持向量机 1、支持向量机 SVM希望通过N-1维的分隔超平面线性分开N维的数据,距离分隔超平面最近的点被叫做支持向量,我们利用SMO(SVM实现方法之一)最大化支持向量到分隔面的距离,这样当新样本点进来时,其被分类正确的概率也就更大。我们计算样本点到分隔超平面的函数间隔,如 ...
分类:
编程语言 时间:
2020-05-18 18:51:25
阅读次数:
59
主要内容: 线性回归 定义与问题引入 损失函数 梯度下降 过拟合与正则化 逻辑回归 定义与问题引入 损失函数 梯度下降与正则化 线性回归 有监督学习= 学习样本为D={(x~i~,y~i~)}^N^~i=1~ 多变量情形: 损失函数 loss function: 梯度下降: 其中α为步长,很大 震荡 ...
分类:
其他好文 时间:
2020-05-17 17:27:48
阅读次数:
73
一、数学统计函数 概率论是统计学的基础,R有许多用于处理概率,概率分布以及随机变量的函数。R对每一个概率分布都有一个简称,这个名称用于识别与分布相联系的函数。这部分涉及到很多统计学基础的理论知识,比如随机试验,样本空间,对立与互斥,随机事件与必然事件,概率密度,概率分布等。 1.四种基本函数 后缀 ...
分类:
编程语言 时间:
2020-05-16 20:23:46
阅读次数:
213
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是 概率统计专题 的第六篇,我们来看看方差相关的概念。 方差的定义 方差在我们的日常生活当中非常常见,它主要是为了 提供样本离群程度的描述 。举个简单的例子,我们去买一包薯片,一般来说一袋薯片当中的数量是固定的。我们假设平均每袋当中 ...
分类:
其他好文 时间:
2020-05-16 10:59:29
阅读次数:
82
交叉验证 交叉验证可以用来估计一个模型的泛化能力,如果一个模型在训练集上表现良好,通过交叉验证指标却得出其泛化能力很差,那么模型就是 过拟合 了;如果这两个方面表现的都不好,那么它就是 欠拟合 了,这个方法可以告诉我们,模型是太复杂还是太简单了 观察学习曲线 另一种方法就是观察学习曲线,画出模型在训 ...
分类:
其他好文 时间:
2020-05-15 00:06:46
阅读次数:
69
em,是一种含有隐含变量的概率模型参数的极大似然估计法。主要应用在机器学习以及计算机视觉的数据聚类领域。 lr,逻辑回归,本质也是线性回归,通过拟合拟合样本的某个曲线,然后使用逻辑函数进行区间缩放,但是一般用来分类,主要用在点击率预估、推荐系统等; svm,支撑向量机,通过找到样本空间中的一个超平面 ...
分类:
编程语言 时间:
2020-05-13 19:44:45
阅读次数:
114
LDA原理 LDA思想 这里的LDA是指Linear Discriminant Analysis,简称LDA,全称线性判别分析。要与自然语言处理领域的LDA(Latent Dirichlet Allocation)隐含狄利克雷分布区分开来。 LDA是一种监督学习降维技术,它的数据集的每个样本是有类别 ...
分类:
其他好文 时间:
2020-05-13 17:17:16
阅读次数:
76
梯度提升树GBDT GBDT是Boosting家庭中,除AdaBoost外另一个重要的算法。算法思想同样是让本轮迭代找到的决策树的损失比上轮更小。 GBDT负梯度拟合 用损失函数负梯度来拟合本轮损失近似值,进而拟合一个CART回归树。第t轮的第i个样本的损失函数的负梯度表示为: $$ r_{ti}= ...
分类:
其他好文 时间:
2020-05-13 16:50:25
阅读次数:
58
摘要:本篇主要介绍了项目中用于商业兴趣建模的DSSM双塔模型。作为推荐领域中大火的双塔模型,因为效果不错并且对工业界十分友好,所以被各大厂广泛应用于推荐系统中。通过构建user和item两个独立的子网络,将训练好的两个“塔”中的user embedding 和item embedding各自缓存到内... ...
分类:
其他好文 时间:
2020-05-13 12:20:31
阅读次数:
104