《数据清洗和特征选择→PCA→1.算法理解》PCA的理解主要是明白2个协方差矩阵的意义以及关系设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系:而对于协方差矩阵来说,一定可以找到n个单位正交特征 ...
分类:
编程语言 时间:
2018-10-08 15:53:31
阅读次数:
180
如何选择特征 根据是否发散及是否相关来选择 方差选择法 先计算各个特征的方差,根据阈值,选择方差大于阈值的特征 方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤 相关系数法 先计算各个特征对 ...
分类:
编程语言 时间:
2018-10-06 22:11:12
阅读次数:
335
简单线性回归 步骤: 1、读取数据 2、画出散点图,求x和y 的相关系数:plt.scatter(x,y),x和y是dataframe 3、估计参数模型,建立回归模型:lrModel=LinearRegression() 4、训练模型: lrModel.fit(x,y) 5、对回归模型进行检验: l ...
分类:
编程语言 时间:
2018-10-04 09:40:22
阅读次数:
160
PCA主成分分析算法,是一种线性降维,将高维坐标系映射到低维坐标系中。 如何选择低维坐标系呢? 通过协方差矩阵的特征值和特征向量,特征向量代表坐标系,特征值代表映射到新坐标的长度。 算法步骤: 输入:样本集D={x1,x2,...,xm}; 低维空间维数k 第一步:将样本集中心化。每一列的特征值减去 ...
分类:
编程语言 时间:
2018-09-21 18:27:36
阅读次数:
224
1. PCA优缺点 利用PCA达到降维目的,避免高维灾难。 PCA把所有样本当作一个整体处理,忽略了类别属性,所以其丢掉的某些属性可能正好包含了重要的分类信息 2. PCA原理 条件1:给定一个m*n的数据矩阵D, 其协方差矩阵为S. 如果D经过预处理, 使得每个每个属性的均值均为0, 则有S=DT ...
分类:
编程语言 时间:
2018-09-12 13:54:53
阅读次数:
605
1、线性模型 形式简单、易于建模、很好的可解释性 2、逻辑回归 无需事先假设数据分布; 可得到近似概率预测; 对率函数任意阶可导的凸函数,许多数值优化算法都可直接用于求取最优解 3、线性判别分析(LDA) 当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类 4、boosting 代表 ...
分类:
编程语言 时间:
2018-09-06 22:49:29
阅读次数:
191
当对 N 个主体中的每一个变量进行观测时,CORREL 工作表函数可计算两个测量变量之间的相关系数。(缺少任何主体的观测值将导致该主体在分析中被忽略。)当 N 个主体中的每一个均具备两个以上的测量变量时,相关系数分析工具则尤为有用。它会提供一个输出表格,即相关矩阵,显示应用到每对可能的测量变量的 C ...
分类:
其他好文 时间:
2018-09-06 21:02:04
阅读次数:
713
1、KMO值在( )范围内,因子分析才是有效的。解答:kmo检验统计量是用于比较变量间简单相关系数和偏相关系数的指标,主要用于多元统计的因子分析。当所有变量的简单相关系数的平方和远远大于偏相关系数的平方和时,kmo值越接近于1,原有变量越适合做因子分析。0.7-0.8适合,0.8-0.9很适合,0. ...
分类:
其他好文 时间:
2018-09-06 16:31:52
阅读次数:
569
自学人工智能之数学篇,数学入门并不难 http://blog.itpub.net/31549715/viewspace-2200126/ 写这篇文章很久想了很久,到底该怎么写? 关于数学与机器学习的关系,观点很多。 写本文的目的,希望结合众家之长,试图解决数学对机器学习入门的困扰。 现在数学困扰大家 ...
分类:
其他好文 时间:
2018-08-27 14:19:08
阅读次数:
202