方法:l 数据清理(Clearing)l 数据集成(Integration)l 数据变换(Transformation)l 数据归约/降维(Reduction)l 数据增维(expand)l 特征提取(generate)(1)数据清理 -- 空缺值处理 a)使用最可能的值填充空缺值,比如可以用最小二...
分类:
其他好文 时间:
2015-12-29 12:30:45
阅读次数:
141
这七种数据分析领域中最为人称道的降维方法感谢王穆荣的投稿,转自数盟社区近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。最新的一个例子是采用 200...
分类:
其他好文 时间:
2015-12-28 20:33:53
阅读次数:
210
最大方差法 PCA降维(欢迎讨论) 在上一篇的基础上继续讨论: 首先,得出原空间的中心点: 假设u1为投影向量,投影之后的方差为: 令方差最大(即:投影之后的点比较分散,没有相关性。以达到一个很好的降维效果),采用拉格朗日乘数法,U1T U1=1为约束条件。 则关于UT的方差表达式可以写成:...
分类:
其他好文 时间:
2015-12-27 14:41:28
阅读次数:
182
那几年。我学习机器学习的主要内容:1.机器学习基本导论,机器学习入门了解;2.线性回归与Logistic。xx业绩预測系统。智能交互统计系统等。3.岭回归。Lasso,变量选择技术。维度的技巧等技术;4.降维技术。xx指标设计,详细规范。5.线性分类器,Knn算法,朴素贝叶斯分类器。文本挖掘。XX智...
分类:
其他好文 时间:
2015-12-19 17:55:21
阅读次数:
141
PCA降维 ——最小方差解释(线性代数看PCA) 注:根据网上资料整理而得,欢迎讨论 机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。因此我们必须对数据进行降维。 降维当然意味着信息的丢失,不过鉴于实际数据本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量...
分类:
其他好文 时间:
2015-12-17 22:35:17
阅读次数:
904
主要两个方面 Probabilistic modeling 概率建模,神经网络模型尝试去预测一个概率分布 Cross-entropy作为误差函数使得我们可以对于观测到的数据 给予较高的概率值 同时可以解决saturation的问题 前面提到的线性隐层的降维作用(减少训练参数) 这是一个最初版的神经网...
分类:
编程语言 时间:
2015-12-16 21:16:45
阅读次数:
1080
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法...
分类:
其他好文 时间:
2015-12-10 13:09:43
阅读次数:
187
Fisherface是由Ronald Fisher发明的,想必这就是Fisherface名字由来。Fisherface所基于的LDA(Linear Discriminant Analysis,线性判别分析)理论和特征脸里用到的PCA有相似之处,都是对原有数据进行整体降维映射到低维空间的方法,LDA和...
分类:
编程语言 时间:
2015-12-06 14:26:51
阅读次数:
627
1、机器学习概论。 2、线性回归与Logistic。案例:电子商务业绩预测 3、岭回归,Lasso,变量选择技术。从一团乱麻中识别有用维度的技巧 4、降维技术。案例:业绩综合指标设计 5、线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘,案例:智能判断垃圾短信,通过文本挖掘给用户加标签,评论自动分...
分类:
编程语言 时间:
2015-11-26 01:23:58
阅读次数:
240
潜在语义分析通过矢量语义空间来分析文档和词的关系。基本假设:如果两个词多次出现在同个文档中,则两个词在语义上具有相似性。LSA使用大量文本构成矩阵,每行表示一个词,一列表示一个文档,矩阵元素可以是词频或TF-IDF,然后使奇异值分解SVD进行矩阵降维,得到原矩阵的近似,此时两个词的相似性可通过其向量...
分类:
其他好文 时间:
2015-11-12 13:31:10
阅读次数:
415