一.监督学习和无监督学习 1.监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数 ...
分类:
其他好文 时间:
2017-07-27 16:37:23
阅读次数:
189
聚类 聚类任务 在无监督学习(密度估计、异常检测等)中,训练样本的标记信息是未知的(即不人为指定),旨在发现数据之间的内在联系和规律,为进一步的数据分析提供基础。 此类学习任务中研究最多、应用最广的是聚类。 聚类将数据集中的样本划分为若干个通常是不相交(有的时候会相交)的子集(簇,也叫类),即将样本 ...
分类:
其他好文 时间:
2017-07-26 17:36:00
阅读次数:
197
1、K-近邻算法原理 1.1 算法特点 简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型 1.2 工作原理 存在一个训练样本集,并且每个样本都存在标签(有监督学习)。输入没有 ...
分类:
编程语言 时间:
2017-07-24 20:24:12
阅读次数:
136
摘要 本文提出了一个通过对抗过程来预测产生式模型的新框架。在新框架中我们同时训练两个模型:一个用来获得数据分布的生成模型G,和一个用来估计样本来自训练数据而不是G的概率的判别模型D,G的训练过程是最大化D产生错误的概率,让其无法判断一个图像是由生成模型产生的,还是来自训练样本.这个框架相当于一个极小 ...
分类:
Web程序 时间:
2017-07-24 14:37:28
阅读次数:
558
多元线性回归也被称为多元线性回归。 我们现在介绍方程的符号,我们可以有任意数量的输入变量。 xj(i):第i个训练样本中的第j个变量。 x(i):第i个训练样本中的变量。 m:训练样本的数量。 n:变量的个数。 容纳这些多个特征的假设函数的多变量形式如下: 为了开发这个功能的直觉,我们可以想一想,θ ...
分类:
其他好文 时间:
2017-07-23 14:25:22
阅读次数:
153
2017-07-22 09:21:37 在机器学习中,支持向量机(SVM,还称支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个标记为属于两类,一个SVM训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类 ...
分类:
其他好文 时间:
2017-07-22 10:53:22
阅读次数:
151
2017-07-20 15:18:25 k近邻(k-Nearest Neighbour, 简称kNN)学习是一种常用的监督学习方法,其工作机制非常简单,对某个给定的测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个‘邻居’的信息进行预测。一般来说,在分类中采用‘投票法’, ...
分类:
编程语言 时间:
2017-07-20 19:45:29
阅读次数:
138
这一课主要是从怎样推断一个机器学习分类算法里拟合的參数是最佳參数引出函数间隔和几何间隔的定义。 1、函数间隔 如果假想函数,,那么能够知道y=1;反之则y=0 。所以当。我们能够非常确定的觉得y=1;当,能够非常确定地觉得y=0。所以在分类算法中。我们在训练样本时得到这两个结果的时候,就能够知道选择 ...
分类:
其他好文 时间:
2017-07-15 17:52:30
阅读次数:
94
批量梯度下降:在梯度下降的每一步中都用到了所有的训练样本。 思想:找能使代价函数减小最大的下降方向(梯度方向)。 ΔΘ = - α▽J α:学习速率 梯度下降的线性回归 线性模型的代价函数: 对于更新项,为什么是 - α▽J : Θ如果在极值点右边,偏导大于0,则Θ要减去偏导的值(Θ偏大,减去一个正 ...
分类:
其他好文 时间:
2017-07-13 22:49:14
阅读次数:
149
KNN补充: 1、K值设定为多大? k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。 (对距离加权,可以降低k值设定的影响) k值通常是采用交叉检验来确定(以k=1为基准) 经验规则:k一般低于训练样本数的平方根 2、类别如何判定最合适? 加权投票法更恰当一些。而具体如何 ...
分类:
编程语言 时间:
2017-07-11 23:06:00
阅读次数:
166