码迷,mamicode.com
首页 >  
搜索关键字:训练样本    ( 415个结果
Caffe3——ImageNet数据集创建lmdb类型的数据
Caffe3——ImageNet数据集创建lmdb类型的数据ImageNet数据集和cifar,mnist数据集最大的不同,就是数据量特别大;单张图片尺寸大,训练样本个数多;面对如此大的数据集,在转换成lmdb文件时;使用了很多新的类型对象。1,动态扩容的数组“vector”,动态地添加新元素2,p...
分类:数据库   时间:2015-05-05 16:05:17    阅读次数:4609
机器学习中使用的神经网络(七)
A geometrical view of perceptron 感知器的几何视图Weight-space 权值空间在这个空间中,每一个感知器中的权值都表示一维,而空间中的一点则代表了所有权值的特定集合,假设消除阈值,则每个训练样本都可以看做通过起点的超平面。So, points in the sp...
分类:其他好文   时间:2015-05-04 11:27:23    阅读次数:177
过度拟合(overfilting)
过拟合概念:是指分类器能够百分之百的正确分类样本数据(训练集中的样本数据),对训练集以外的数据却不能够正确分类。原因:1:模型(算法)太过复杂,比如神经网络,算法太过精细复杂,规则太过严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,即在训练样本中拟合的很好,在训练样本外拟合的很差....
分类:其他好文   时间:2015-04-19 17:41:42    阅读次数:137
机器学习--k-近邻(kNN)算法
一、基本原理         存在一个样本数据集合(也称训练样本集),并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。 我们一般只选择样本集中前k(k通常是不大于20的整数)个最相似的数据,最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。 二、算法流程...
分类:编程语言   时间:2015-04-17 11:44:08    阅读次数:162
(转载)监督学习和无监督学习
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最...
分类:其他好文   时间:2015-04-13 09:19:05    阅读次数:109
机器学习-斯坦福:学习笔记3-欠拟合与过拟合概念
欠拟合与过拟合概念本次课程大纲:1、局部加权回归:线性回归的变化版本2、概率解释:另一种可能的对于线性回归的解释3、Logistic回归:基于2的一个分类算法4、感知器算法:对于3的延伸,简要讲复习:–第i个训练样本令,以参数向量为条件,对于输入x,输出为:n为特征数量定义成本函数J,定义为:m为训...
分类:其他好文   时间:2015-04-11 14:49:45    阅读次数:193
【用Python玩Machine Learning】KNN * 测试
样本我就用的《machine learning in action》中提供的数据样例,据说是婚恋网站上各个候选人的特征,以及当前人对这些人的喜欢程度。一共1k条数据,前900条作为训练样本,后100条作为测试样本。 数据格式如下: 46893 3.562976 0.445386 didntLike 8178 3.230482 1.331698 smallDoses 55783 3.612548...
分类:编程语言   时间:2015-04-11 13:17:24    阅读次数:159
机器学习笔记(二)——k-近邻算法
k-邻近算法概述k-邻近算法采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高使用数据范围:数值型和标称型工作原理:存在一个样本数据集合(也称作训练样本集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属的对应关系。...
分类:编程语言   时间:2015-03-16 16:11:37    阅读次数:166
机器学习笔记(二)——k-近邻算法
k-邻近算法概述k-邻近算法采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高使用数据范围:数值型和标称型工作原理:存在一个样本数据集合(也称作训练样本集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属的对应关系。...
分类:编程语言   时间:2015-03-12 23:50:07    阅读次数:269
决策树之信息与熵的计算
一、引言之前提到的k-近邻算法是分类数据最简单最有效的算法。k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。而且,k-近邻数据必须保全全部数据集,如果训练数据集的很大,必须使用大量的存储空间,此外k-近邻算法必须对数据集中的每个数据计算距离,这是非常耗时的。另外,对于数...
分类:其他好文   时间:2015-03-12 22:13:24    阅读次数:174
415条   上一页 1 ... 35 36 37 38 39 ... 42 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!