这里我省去了很多的数学知识,建议数学比较薄弱的读者可以先看看信息检索导论>第18章。主要的数学知识包括方阵的特征值、特征向量;方阵的对角化;一般矩阵的奇异值分解及低秩逼近矩阵。这里主要讲解奇异值分解的两个应用PCA(降维)和LSA(潜在语义结构分析)。
PCA:
之前有详细讲过PCA,http://blog.csdn.net/lu597203933/article/details/415445...
分类:
其他好文 时间:
2015-05-22 00:38:18
阅读次数:
1027
主成分分析与白化是在做深度学习训练时最常见的两种预处理的方法,主成分分析是一种我们用的很多的降维的一种手段,通过PCA降维,我们能够有效的降低数据的维度,加快运算速度。而白化就是为了使得每个特征能有同样的方差,降低相邻像素的相关性。 主成分分析PCA PCA算法可以将输入向量转换为一个维数低很多的近...
分类:
其他好文 时间:
2015-05-21 21:46:23
阅读次数:
482
主成分得分-线性回归通过主成分分析,采取降维的方法,最终选取了一个能解释收视情况76.62%的主成分,计算该用户每日收视综合得分。然后进行线性回归可以得出该用户的一个k值。s_dates_counts_timelens_usecount综合得分20140801625010-0.612014080231234-1.892014080352049-0...
分类:
其他好文 时间:
2015-05-19 16:57:22
阅读次数:
124
上一篇笔记中,介绍了因子分析模型,因子分析模型使用d维子空间的隐含变量z来拟合训练数据,所以实际上因子分析模型是一种数据降维的方法,它基于一个概率模型,使用EM算法来预计參数。本篇主要介绍PCA(Principal Components Analysis, 主成分分析),也是一种降维方法,可是该方法...
分类:
其他好文 时间:
2015-05-18 14:41:29
阅读次数:
145
张量是一种高维数据的组织方法。类似于一维的标量,二维的向量,三维及以上的数据统称为张量。传统的方法(例如PCA、SVD和LDA)对于维数比较高的数据,一般通过“硬”方法,直接降维成二维的数据形式(矩阵)进行处理。近些年,出现的2DPCA,2DSVD等新方法,是通过双向的对二维数据进行处理,在处理的过...
分类:
其他好文 时间:
2015-05-14 16:07:35
阅读次数:
259
上部分讲了些跟数据有关的概念,这部分来聊一聊操作。这里讲的操作其实是对数据预处理的操作。大概有以下这些操作。 数据聚合(Aggregation) 数据取样(Sampling) 数据降维 属性子集选取 构建属性 离散化和二分化属性 变量转换数据聚合 有个思想叫做"less is more",即所谓删繁...
分类:
其他好文 时间:
2015-05-12 11:15:18
阅读次数:
128
这是Kaihua Zhang发表在ECCV2012的paper,paper的主题思想是利用满足压缩感知(compressive sensing)的RIP(restricted isometry property)条件的随机测量矩阵(random measurement matrix)对多尺度(multiple scale)的图像特征(features)进行降维,然后通过朴素贝叶斯分类器(naive...
分类:
其他好文 时间:
2015-05-11 10:47:15
阅读次数:
551
Codeforces Round #125 (Div. 1 A)...
分类:
其他好文 时间:
2015-05-07 22:16:10
阅读次数:
197
第十四章:主成分和因子分析本章内容主成分分析探索性因子分析其他潜变量模型主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测...
分类:
其他好文 时间:
2015-05-06 22:45:31
阅读次数:
361
一.文本预处理
定义:将文本转化为计算机可处理的形式,将文章分成单个的词语,形成向量形式。
二.降维(特征选取)三.分类器的构建...
分类:
其他好文 时间:
2015-05-03 12:00:38
阅读次数:
90