人工智能是当下很热门的话题,手写识别是一个典型的应用。为了进一步了解这个领域,我阅读了大量的论文,并借助opencv完成了对28x28的数字图片(预处理后的二值图像)的识别任务。 预处理一张图片: 首先采用opencv读取图片的构造函数读取灰度的图片,再采用大津法求出图片的二值化的阈值,并且将图片二 ...
分类:
其他好文 时间:
2016-04-01 20:37:09
阅读次数:
293
Some further statements on KNN:
It
appears that k-nearest-neighbor fits have a single parameter, the number of neighbors k, compared to the p parameters in least-squares fits. Although this is the...
分类:
其他好文 时间:
2016-04-01 18:33:09
阅读次数:
516
Exercise:PCA and Whitening
第0步:数据准备
UFLDL下载的文件中,包含数据集IMAGES_RAW,它是一个512*512*10的矩阵,也就是10幅512*512的图像
(a)载入数据
利用sampleIMAGESRAW函数,从IMAGES_RAW中提取numPatches个图像块儿,每个图像块儿大小为patchSize,并将提取到的图像块儿按列存放,分别存放在...
分类:
其他好文 时间:
2016-04-01 18:18:38
阅读次数:
274
Prepare the data 数据来自UCIhttp://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening,一个信a用卡的数据,具体各项变量名以及变量名代表的含义不明(应该是出于保护隐私的目的),本文会用logi ...
分类:
编程语言 时间:
2016-03-31 12:51:17
阅读次数:
593
运用PCA对高维数据进行降维,有一下几个特点: (1)数据从高维空间降到低维,因为求方差的缘故,相似的特征会被合并掉,因此数据会缩减,特征的个数会减小,这有利于防止过拟合现象的出现。但PCA并不是一种好的防止过拟合的方法,在防止过拟合的时候,最好是对数据进行正则化; (2)使用降维的方法,使算法的运 ...
分类:
其他好文 时间:
2016-03-30 09:52:43
阅读次数:
258
左图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方 ...
分类:
编程语言 时间:
2016-03-30 00:08:05
阅读次数:
295
这一个部分都将只涉及到选择特征的某个子集的方法,将高纬度的特征空间映射到低维度空间的方法(如PCA)都不会涉及到。 一. 单变量 优点:运算速度快,独立于分类器 缺点:忽略的特征之间的联系,忽略了与分类器的联系(在训练模型的时候不能调参来提高性能) 1. 卡方检验 主要内容参考来自 http://b ...
分类:
移动开发 时间:
2016-03-28 18:25:33
阅读次数:
176
在看论文的过程中,经常遇到涉及到特征值、特征向量、奇异值、右奇异向量等相关知识的地方,每次都是看得似懂非懂。本文将从特征值和奇异值相关的基础知识入手,探究奇异值和特征值的内涵,进而对特征值和奇异的知识进行梳理。 特征值分解和奇异值分解(SVD)在主成分分析(PCA)和机器学习领域都有广泛的应用。PC ...
分类:
其他好文 时间:
2016-03-26 18:33:50
阅读次数:
375
主成分分析(PCA)是一种能够极大提升无监督特征学习速度的数据降维算法。更重要的是,理解PCA算法,对实现白化算法有很大的帮助,很多算法都先用白化算法作预处理步骤。 假设你使用图像来训练算法,因为图像中相邻的像素高度相关,输入数据是有一定冗余的。具体来说,假如我们正在训练的16x16灰度值图像,记为
分类:
其他好文 时间:
2016-03-19 16:25:49
阅读次数:
304