主成份分析历史:
Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法。通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目,可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析。
通过对原始变量进行线性组合,得到优化的指标:把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:设法将原先众多具有...
分类:
编程语言 时间:
2014-12-15 10:29:54
阅读次数:
290
系统地讲解了线性判别分析,主成分分析,奇异值分解的数学原理...
分类:
其他好文 时间:
2014-12-14 08:22:37
阅读次数:
365
分类问题也可以用降维来理解,比如一个D维的数据点x,我们可以采用下面的映射进行线性的降维,y=θTx在计算出y后,就可以选择一个阈值h,来进行分类。正如我们在前面的PCA模型中看到的,降维会有信息的损失,可能会在降维过程中,丢失使数据可分的特征,导致分类的效果不理想。那采用什么样的降维方式,可以尽量...
分类:
其他好文 时间:
2014-12-13 23:16:17
阅读次数:
329
Principal Component Analysis算法优缺点:优点:降低数据复杂性,识别最重要的多个特征缺点:不一定需要,且可能损失有用的信息适用数据类型:数值型数据算法思想:降维的好处:使得数据集更易使用降低很多算法计算开销去除噪声使得结果易懂主成分分析(principal componen...
分类:
其他好文 时间:
2014-12-11 00:06:46
阅读次数:
259
PCA是一种非监督学习算法,它能够在保留大多数有用信息的情况下,有效降低数据纬度。它主要应用在以下三个方面:1. 提升算法速度2. 压缩数据,减小内存、硬盘空间的消耗3. 图示化数据,将高纬数据映射到2维或3维总而言之,PCA干的事情就是完成一个将原始的n维数据转化到k维的映射。其中,k<n它的核心...
分类:
编程语言 时间:
2014-12-10 17:44:02
阅读次数:
256
1. PCA整体思想PCA,Principle Componet Analysis,主成分分析,主要用于数据降维。它通过计算给定数据集的协方差矩阵的特征值和特征向量,来得到数据集最关键的方向(数据集在此方向的投影方差最大,这个能保持最多的信息),并从关键的方向中选取前k个构成k维空间,在此空间中重新...
分类:
其他好文 时间:
2014-12-07 06:28:10
阅读次数:
171
原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射或变换的方法,降高维数据降低到低维空间中的数据,这个过程叫特征提取,也称降维。 特征提取得基本任务研究从众多特征中求出那些对分类最有效的特征,从而实现特征空间维数的压缩。传统的降维技术可以分为线性和非线性两类。(1)线性降维算法主要有P...
分类:
其他好文 时间:
2014-12-06 20:14:58
阅读次数:
234
其实早该整理一下PCA了,怎奈一直没有时间,可能是自己对时间没有把握好吧,下面进入正题。降维的概念所谓降维,就是降低数据的维数。在机器学习中尤其常见,之前做过对一幅图片提取小波特征,对于一幅大小为800*600的图片,如果每个点提取五个尺度、八个方向的特征,那么每一个像素点提取40个特征,那么一副图...
分类:
其他好文 时间:
2014-12-05 23:59:57
阅读次数:
397
下面写下用pca对数据进行降维处理的过程:Python源代码如下: 1 from numpy import *; 2 def loadDataSet(fileName,delim='\t'): 3 # 打开文件 4 fr=open(fileName); 5 """ 6 >>>...
分类:
编程语言 时间:
2014-12-04 13:49:27
阅读次数:
303
PCA全称为principal componentanalysis,即主成成分分析,用于降维。对数据进行降维有很多原因。比如:
1:使得数据更易显示,更易懂
2:降低很多算法的计算开销
3:去除噪声
一:基本数学概念
1:方差
均值太简单了,不说了。方差是各个数据分别与其和的平均数之差的平方的和的平均数,用字母D表示。计算公式如下:
...
分类:
其他好文 时间:
2014-11-27 14:36:35
阅读次数:
402