1. PCA整体思想PCA,Principle Componet Analysis,主成分分析,主要用于数据降维。它通过计算给定数据集的协方差矩阵的特征值和特征向量,来得到数据集最关键的方向(数据集在此方向的投影方差最大,这个能保持最多的信息),并从关键的方向中选取前k个构成k维空间,在此空间中重新...
分类:
其他好文 时间:
2014-12-07 06:28:10
阅读次数:
171
其实早该整理一下PCA了,怎奈一直没有时间,可能是自己对时间没有把握好吧,下面进入正题。降维的概念所谓降维,就是降低数据的维数。在机器学习中尤其常见,之前做过对一幅图片提取小波特征,对于一幅大小为800*600的图片,如果每个点提取五个尺度、八个方向的特征,那么每一个像素点提取40个特征,那么一副图...
分类:
其他好文 时间:
2014-12-05 23:59:57
阅读次数:
397
本人引自http://blog.csdn.net/xiaoyu714543065/article/details/7832132问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者...
分类:
其他好文 时间:
2014-11-26 20:39:48
阅读次数:
310
以前对PCA算法有过一段时间的研究,但没整理成文章,最近项目又打算用到PCA算法,故趁热打铁整理下PCA算法的知识。本文观点旨在抛砖引玉,不是权威,更不能尽信,只是本人的一点体会。主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数...
分类:
编程语言 时间:
2014-11-24 20:52:11
阅读次数:
435
主成分分析R软件实现程序(一):>d=read.table("clipboard",header=T) #从剪贴板读取数据>sd=scale(d)#对数据进行标准化处理>sd#输出标准化后的数据和属性信息,把标准化的数据拷贝到剪贴板备用>d=read.table("clipboard",header...
分类:
编程语言 时间:
2014-11-19 20:21:08
阅读次数:
384
在很多情况下,我们要处理的数据的维度很高,需要提取主要的特征进行分析这就是PAC(主成分分析),白化是为了减少各个特征之间的冗余,因为在许多自然数据中,各个特征之间往往存在着一种关联,为了减少特征之间的关联,需要用到所谓的白化(whitening).首先下载数据pcaData.rar,下面要对这里面...
分类:
其他好文 时间:
2014-10-20 16:45:05
阅读次数:
303
矩阵的特征值和特征向量是线性代数以及矩阵论中非常重要的一个概念。在遥感领域也是经常用到,比如多光谱以及高光谱图像的主成分分析要求解波段间协方差矩阵或者相关系数矩阵的特征值和特征向量。根据普通线性代数中的概念,特征值和特征向量可以用传统的方法求得,但是实际项目中一般都是用数值分析的方法来计算,这里介绍一下雅可比迭代法求解特征值和特征向量。雅克比方法用于求实对称阵的全部特征值、特征向量。对于实对称阵...
分类:
编程语言 时间:
2014-10-18 17:02:51
阅读次数:
674
R语言多元分析系列之一:主成分分析主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成...
分类:
编程语言 时间:
2014-10-10 15:45:34
阅读次数:
433
在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原...
分类:
其他好文 时间:
2014-09-17 11:52:32
阅读次数:
928
一、Sparse Coding稀疏编码稀疏编码算法是一种无监督学习方法,它用来寻找一组“超完备”基向量来更高效地表示样本数据。稀疏编码算法的目的就是找到一组基向量 ,使得我们能将输入向量 表示为这些基向量的线性组合:也就是虽然形如主成分分析技术(PCA)能使我们方便地找到一组“完备”基向量,但是.....
分类:
其他好文 时间:
2014-08-27 14:21:27
阅读次数:
850