Caffe3——ImageNet数据集创建lmdb类型的数据ImageNet数据集和cifar,mnist数据集最大的不同,就是数据量特别大;单张图片尺寸大,训练样本个数多;面对如此大的数据集,在转换成lmdb文件时;使用了很多新的类型对象。1,动态扩容的数组“vector”,动态地添加新元素2,p...
                            
                            
                                分类:
数据库   时间:
2015-05-05 16:05:17   
                                阅读次数:
4609
                             
                    
                        
                            
                            
                                A geometrical view of perceptron 感知器的几何视图Weight-space 权值空间在这个空间中,每一个感知器中的权值都表示一维,而空间中的一点则代表了所有权值的特定集合,假设消除阈值,则每个训练样本都可以看做通过起点的超平面。So, points in the sp...
                            
                            
                                分类:
其他好文   时间:
2015-05-04 11:27:23   
                                阅读次数:
177
                             
                    
                        
                            
                            
                                过拟合概念:是指分类器能够百分之百的正确分类样本数据(训练集中的样本数据),对训练集以外的数据却不能够正确分类。原因:1:模型(算法)太过复杂,比如神经网络,算法太过精细复杂,规则太过严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,即在训练样本中拟合的很好,在训练样本外拟合的很差....
                            
                            
                                分类:
其他好文   时间:
2015-04-19 17:41:42   
                                阅读次数:
137
                             
                    
                        
                            
                            
                                一、基本原理
        存在一个样本数据集合(也称训练样本集),并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
我们一般只选择样本集中前k(k通常是不大于20的整数)个最相似的数据,最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
二、算法流程...
                            
                            
                                分类:
编程语言   时间:
2015-04-17 11:44:08   
                                阅读次数:
162
                             
                    
                        
                            
                            
                                机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最...
                            
                            
                                分类:
其他好文   时间:
2015-04-13 09:19:05   
                                阅读次数:
109
                             
                    
                        
                            
                            
                                欠拟合与过拟合概念本次课程大纲:1、局部加权回归:线性回归的变化版本2、概率解释:另一种可能的对于线性回归的解释3、Logistic回归:基于2的一个分类算法4、感知器算法:对于3的延伸,简要讲复习:–第i个训练样本令,以参数向量为条件,对于输入x,输出为:n为特征数量定义成本函数J,定义为:m为训...
                            
                            
                                分类:
其他好文   时间:
2015-04-11 14:49:45   
                                阅读次数:
193
                             
                    
                        
                            
                            
                                样本我就用的《machine learning in action》中提供的数据样例,据说是婚恋网站上各个候选人的特征,以及当前人对这些人的喜欢程度。一共1k条数据,前900条作为训练样本,后100条作为测试样本。
数据格式如下:
46893	3.562976	0.445386	didntLike
8178	3.230482	1.331698	smallDoses
55783	3.612548...
                            
                            
                                分类:
编程语言   时间:
2015-04-11 13:17:24   
                                阅读次数:
159
                             
                    
                        
                            
                            
                                k-邻近算法概述k-邻近算法采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高使用数据范围:数值型和标称型工作原理:存在一个样本数据集合(也称作训练样本集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属的对应关系。...
                            
                            
                                分类:
编程语言   时间:
2015-03-16 16:11:37   
                                阅读次数:
166
                             
                    
                        
                            
                            
                                k-邻近算法概述k-邻近算法采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高使用数据范围:数值型和标称型工作原理:存在一个样本数据集合(也称作训练样本集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属的对应关系。...
                            
                            
                                分类:
编程语言   时间:
2015-03-12 23:50:07   
                                阅读次数:
269
                             
                    
                        
                            
                            
                                一、引言之前提到的k-近邻算法是分类数据最简单最有效的算法。k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。而且,k-近邻数据必须保全全部数据集,如果训练数据集的很大,必须使用大量的存储空间,此外k-近邻算法必须对数据集中的每个数据计算距离,这是非常耗时的。另外,对于数...
                            
                            
                                分类:
其他好文   时间:
2015-03-12 22:13:24   
                                阅读次数:
174