几个常见问题: 1、为什么损失函数采用最小二乘法,而不是绝对值形式,也不采用最小三乘法?关于这个问题的答案,后面的课程会给出,主要是从最大似然函数角度给出的合理化解释,如果你追问,最大似然函数就代表科...
分类:
其他好文 时间:
2015-10-09 20:05:28
阅读次数:
526
多元线性回归是最简单的机器学习模型,通过给定的训练数据集,拟合出一个线性模型,进而对新数据做出预测。 对应的模型如下: n: 特征数量。 一般选取残差平方和最小化作为损失函数,对应为: M:训练样本数量。 通过最小化代价损失函数,来求得 值,一般优化的方法有两种,第一是梯度下降算法(Gradient...
分类:
编程语言 时间:
2015-10-07 22:52:15
阅读次数:
1759
回头再温习一下Andrew Ng的机器学习视频课,顺便把没写完的笔记写完。本节内容
牛顿方法
指数分布族
广义线性模型
之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下【参考感知机学习部分提到的梯度下降(gradient descent)】。在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为θ:=θ?η?θ?(θ)\theta := \the...
分类:
其他好文 时间:
2015-10-06 16:56:25
阅读次数:
363
下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。 1、批量梯度下降(BGD)的求解思路...
分类:
其他好文 时间:
2015-09-23 15:12:58
阅读次数:
595
原文:http://luowei828.blog.163.com/blog/static/310312042013101401524824通常而言,损失函数由损失项(loss term)和正则项(regularization term)组成。发现一份不错的介绍资料:http://www.ics.uc...
分类:
其他好文 时间:
2015-09-12 14:54:38
阅读次数:
141
前言:用途:分类。类似于if-then集合优点:速度快。原则:损失函数最小化,这是所有机器学习算法的原则。步骤:1> 特征选择 2> 决策树生成 3> 决策树修剪决策树模型内部结点和叶结点,太好理解了,无需讨论。if-then 集合if-then 需要保证重要的一点:就是互斥且完备。很好理解。完备保...
分类:
其他好文 时间:
2015-08-29 00:35:39
阅读次数:
279
一、AdaBoost的损失函数 AdaBoost优化的是指数损失,即\begin{align*} \mathbb{E}_{\boldsymbol{x} \sim \mathfrak{D}, y}[e^{-y H(\boldsymbol{x})}] = \int_{\boldsymbol{x}} \....
分类:
编程语言 时间:
2015-08-28 13:01:37
阅读次数:
307
线性回归中提到最小二乘损失函数及其相关知识。对于这一部分知识不清楚的同学可以参考上一篇文章《线性回归、梯度下降》。本篇文章主要讲解使用最小二乘法法构建损失函数和最小化损失函数的方法。
最小二乘法构建损失函数
最小二乘法也一种优化方法,用于求得目标函数的最优值。简单的说就是:让我们的预测值与真实值总的拟合误差(即总残差)达到最小。
在线性回归中使用最小二乘...
分类:
其他好文 时间:
2015-08-17 08:49:42
阅读次数:
690
本文主要讲解局部加权(线性)回归。在讲解局部加权线性回归之前,先讲解两个概念:欠拟合、过拟合,由此引出局部加权线性回归算法。
欠拟合、过拟合
如下图中三个拟合模型。第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大。如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些。图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合。
...
分类:
其他好文 时间:
2015-08-17 08:48:14
阅读次数:
183
这一讲主要是针对单变量的线性回归来讲两个基本概念:损失函数(cost function)、梯度下降(Gradient Descent)1 Cost Function
定义如下:
左图为cost function的定义。右边为只有一个参数的h(x)的情况。
cost function的作用的评价一个回归函数好坏用的,具体来说就是评价回归函数h(x)的参数选对没。
这里J(theta)也可以...
分类:
其他好文 时间:
2015-08-08 16:42:04
阅读次数:
142