参考:http://scikit-learn.org/stable/modules/unsupervised_reduction.html
对于高维features,常常需要在supervised之前unsupervised dimensionality reduction。
下面三节的翻译会在之后附上。
4.4.1. PCA: principal compo...
分类:
其他好文 时间:
2015-07-26 12:47:59
阅读次数:
149
《Aggregating local descriptors into a compact image representation》论文笔记
在论文中,提取到VLAD特征后,要对特征向量进行PCA降维,就是用一个大小为D’ * D的矩阵M,对VLAD特征向量x做变换,降维后的vector是x’ = Mx,x’的大小是D’维。矩阵M是由原样本的协方差矩阵的D’个特征向量构成。
为什么M要是特征...
分类:
其他好文 时间:
2015-07-25 23:02:41
阅读次数:
220
关于这部分主要是想在python下试验一下主成分分析(PCA)算法以及简单的人脸识别。曾经详述过matlab下的PCA以及SVM算法进行人脸识别技术,参考如下:主成分分析法-简单人脸识别(一)主成分分析-简单人脸识别(二)PCA实验人脸库-人脸识别(四)PCA+支持向量机-人脸识别(五)主成分分析(PCA)算法主要是对高维数据进行降维,最大限度的找到数据间的相互关系,在机器学习、数据挖掘上很有用。在...
分类:
编程语言 时间:
2015-07-25 20:00:11
阅读次数:
147
《Aggregating local descriptors into a compact image representation》论文笔记提取到VLAD特征后,要先用PCA降维,然后再用ADC方法对每一幅图像建立索引,这里先介绍ADC方法。ADC方法是对图片库中,除query vector x之外的所有图的vector Y=y1,y2...ynY={y_1,y_2...y_n},做kmeans产...
分类:
其他好文 时间:
2015-07-25 12:23:20
阅读次数:
173
PCAPCA全称为Principal Components Analysis,即主成分分析,是一种常用的降维方法。PCA将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来的全部指标。将n维特征映射到k维全新的正交特征上。PCA的实现一般有两种:特征值分解和SVD.原理对原始...
分类:
其他好文 时间:
2015-07-25 12:04:44
阅读次数:
202
动机在机器学习领域中,我们常常会遇到维数很高的数据,有些数据的特征维度高达上百万维,很显然这样的数据是无法直接计算的,而且维度这么高,其中包含的信息一定有冗余,这时就需要进行降维,总的来说,我们降维的主要目的有如下几条:在原始的高维空间中,包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误...
分类:
其他好文 时间:
2015-07-22 06:50:50
阅读次数:
420
PCA的数学原理PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的...
分类:
其他好文 时间:
2015-07-17 22:38:16
阅读次数:
234
本文参考:http://scikit-learn.org/stable/data_transforms.html
本篇主要讲数据预处理,包括四部分:
数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自定义特征。哇哈哈,还是关注预处理比较靠谱。。。。
重要的不翻译:scikit-learn provides
a library of transformers, whi...
分类:
其他好文 时间:
2015-07-17 10:09:01
阅读次数:
145
t:代表特征,|C|:代表类别总数,ci 代表第i个类别 CF[i][j]:代表term class frequency,即表示在第j个类别的文档中出现了第i个term的文档数 DF[i]:代表term document frequency,即表示样本集中出现了该term的文档数 docsPerCl...
分类:
其他好文 时间:
2015-07-16 16:31:35
阅读次数:
132
t:代表特征,|C|:代表类别总数,ci 代表第i个类别 CF[i][j]:代表term class frequency,即表示在第j个类别的文档中出现了第i个term的文档数 DF[i]:代表term document frequency,即表示样本集中出现了该term的文档数 docsPerCl...
分类:
其他好文 时间:
2015-07-16 13:34:54
阅读次数:
149