在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原
分类:
其他好文 时间:
2016-03-09 23:55:11
阅读次数:
242
概述SOM是芬兰教授Teuvo Kohonen提出的一种神经网络算法,它提供一种将高维数据在低维空间进行表示的方法(通常是一维或二维)。缩减向量维度的过程,叫做向量量化(vector quantisation)。此外,SOM网络能保留原有数据的拓扑关系。一个用来直观感受SOM网络规则的例子,是将3维...
分类:
其他好文 时间:
2015-12-19 14:58:21
阅读次数:
904
本文介绍一种用于高维空间中的快速最近邻和近似最近邻查找技术——Kd-Tree(Kd树)。Kd-Tree,即K-dimensional tree,是一种高维索引树形数据结构,常用于在大规模的高维数据空间进行最近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Near...
分类:
编程语言 时间:
2015-10-29 06:17:49
阅读次数:
582
PCA的数学原理PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的...
分类:
其他好文 时间:
2015-10-02 19:57:54
阅读次数:
259
南大周志华老师在2010年提出一个异常检测算法Isolation Forest,在工业界很实用,算法效果好,时间效率高,能有效处理高维数据和海量数据,这里对这个算法进行简要总结。
分类:
编程语言 时间:
2015-09-05 15:02:15
阅读次数:
267
这个系列是为了应对找工作面试时面试官问的算法问题,所以只是也谢算法的简要介绍,后期会陆续补充关于此
算法的常见面问题。
分类的概念就说了,分类一般分为两个阶段:学习阶段以及分类阶段;
常用的分类方法有:
1、决策树
决策树不需要任何领域的知识或者参数的设置,其可以处理高维数据,简单快速。
若分类的数据是连续的,则需要插入分裂点将数据离散化;树建立的过程中,需要按照一定...
分类:
编程语言 时间:
2015-08-27 13:29:02
阅读次数:
208
关于这部分主要是想在python下试验一下主成分分析(PCA)算法以及简单的人脸识别。曾经详述过matlab下的PCA以及SVM算法进行人脸识别技术,参考如下:主成分分析法-简单人脸识别(一)主成分分析-简单人脸识别(二)PCA实验人脸库-人脸识别(四)PCA+支持向量机-人脸识别(五)主成分分析(PCA)算法主要是对高维数据进行降维,最大限度的找到数据间的相互关系,在机器学习、数据挖掘上很有用。在...
分类:
编程语言 时间:
2015-07-25 20:00:11
阅读次数:
147
参考NB:高效、易实现;性能不一定高LR:对数据的假设少,适应性强,可用于在线学习;要求线性可分决策树:易解释,对数据线性与否无关;易过拟合,不支持在线RF:快速并且可扩展,参数少;可能过拟合SVM:高准确率、可处理非线性可分数据(可处理高维数据);内存消耗大,难于解释,运行和调参麻烦
分类:
编程语言 时间:
2015-07-24 20:21:23
阅读次数:
136
PCA的数学原理PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的...
分类:
其他好文 时间:
2015-07-17 22:38:16
阅读次数:
234
上一年记录的东西,整理下...LSH,是Locality Sensitive Hashing的缩写,也翻译为局部敏感哈希,是一种通过设计满足特殊性质即局部敏感的哈希函数,提高相似查询效率的方法。 虽然从正式提出距今不过十余年,由于其局部敏感的特殊性质,以及在高维数据上相当于k-d树等方法的优越性,L...
分类:
其他好文 时间:
2015-07-08 16:22:26
阅读次数:
172