所谓学习问题,是指观察由n个样本组成的集合,并依据这些数据来预測未知数据的性质。 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图。如果如今有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同一时候存在一个通用的搜索引擎,比方百度,通用搜索引 ...
分类:
编程语言 时间:
2017-06-05 19:24:09
阅读次数:
353
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类。 KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属 ...
分类:
编程语言 时间:
2017-06-04 17:05:09
阅读次数:
182
二分类问题Sigmod 在 logistic 回归中,我们的训练集由 个已标记的样本构成: ,其中输入特征。(我们对符号的约定如下:特征向量 的维度为 ,其中 对应截距项 。) 由于 logistic 回归是针对二分类问题的,因此类标记 。假设函数(hypothesis function) 如下: ...
分类:
其他好文 时间:
2017-06-04 15:52:12
阅读次数:
268
本篇文章先介绍了提升放法和AdaBoost算法。已经了解的可以直接跳过。后面给出了AdaBoost算法的两个样例。附有详细计算过程。1、提升方法(来源于统计学习方法) 提升方法是一种经常使用的统计学习方法,应用十分广泛且有效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行 ...
分类:
编程语言 时间:
2017-06-01 19:35:25
阅读次数:
257
最近接触了机器学习,感觉很梦幻,能实现的我的梦想,看网上说的花天酒地的难,但是想做就要做下去,毅然决然的跳入这个大坑。 让我们慢慢来,先怼它几个概念。 监督学习 我们给出了关于每个数据的“正确答案”。监督学习必须知道预测什么,即目标变量的分类信息。 监督学习中又有常见的两种问题回归问题和分类问题。 ...
分类:
系统相关 时间:
2017-05-21 16:56:21
阅读次数:
225
现实生活中有很多分类问题,比如正常邮件/垃圾邮件,良性肿瘤/恶性肿瘤,识别手写字等等,这些可以用逻辑回归算法来解决。 一、二分类问题 所谓二分类问题,即结果只有两类,Yes or No,这样结果{0,1}集合来表示y的取值范围。 前面说到过,线性回归的模型是 h(x)=θ0+θ1x1+θ2x2+.. ...
分类:
系统相关 时间:
2017-05-20 17:15:13
阅读次数:
300
Machine Learning:Neural Network Representation 1。Non-Linear Classification 假设还採取简单的线性分类手段。那么会面临着过拟合以及效率低下的问题(如图所看到的),然而neural network则能够非常好的解决非线性分类问题。 ...
分类:
Web程序 时间:
2017-05-14 20:29:21
阅读次数:
231
一、状态和模型 在CNN网络中的训练样本的数据为IID数据(独立同分布数据),所解决的问题也是分类问题或者回归问题或者是特征表达问题。但更多的数据是不满足IID的,如语言翻译,自动文本生成。它们是一个序列问题,包括时间序列和空间序列。这时就要用到RNN网络,RNN的结构图如下所示: 序列样本一般分为 ...
分类:
其他好文 时间:
2017-05-12 20:11:06
阅读次数:
2398
MNIST是一个入门级的计算机视觉数据集,它包含各种手写数字图片:1.MNIST数据集MNIST,是不是听起来特高端大气,不知道这个是什么东西?==手写数字分类问题所要用到的(经典)MNIST数据集==MNIST数据集的官网是YannLeCun‘swebsite自动下载和安装这个数据集的python代码该段代码..
分类:
其他好文 时间:
2017-05-12 13:24:47
阅读次数:
202
预备知识: cover定理: 在复杂的模式分类问题中,将数据映射到高维空间比映射到低维空间更可能线性可分 径向基函数: 空间中的任意点到某一中心之间的欧式距离(也可以是其他的距离函数)的单调函数 径向基神经网络是由一个三层的结构组成,包括输入层,隐含层,输出层,隐含层的激活函数一般是非线性的径向基函 ...
分类:
其他好文 时间:
2017-05-10 16:33:00
阅读次数:
239