欧几里德距离
>
计算两组数据之间的距离,偏好越相似的人其距离就越短。。。为了处理方便,需要一个函数来对偏好越相近的情况给出越大的值(0~1之间)。
皮尔逊相关系数相关度评价
>
皮尔逊相关系数是判断两组叔叔与某一直线拟合程度的一种度量。其对应的公式比欧几里德距离评价的计算公式要复杂,但是在数据不是很规范时会倾向于给出更好的结果。...
分类:
其他好文 时间:
2015-07-06 17:55:33
阅读次数:
116
PCA要做的事降噪和去冗余,其本质就是对角化协方差矩阵。一.预备知识 1.1 协方差分析 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来。网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么...
分类:
其他好文 时间:
2015-06-27 15:46:18
阅读次数:
150
课程2课程2
归纳
回归就是变量之间的关系
相关系数
RSS
线性回归通过R语言
多元线性模型
虚拟变量哑变量
多元线性回归模型
回归诊断
广义线性模型一元以及多元的线性回归,统计学东西比较多,统计学术语一堆堆的
《大数据的统计学基础》基础的基础
logistic回归,划入广义线性回归模型。
变量筛选,从一堆变量中求解出来,以及降维。
1.归纳拟合,一般选择直线或者次数比较低得曲线。(测试有误差,曲...
分类:
其他好文 时间:
2015-06-26 13:04:58
阅读次数:
263
问题:将二元正态分布的概率密度函数改写成矩阵-向量形式改写:
设(X1,X2)(X_1, X_2)是二元正态变量,其密度函数为:
即:(X1,X2)(X_1, X_2) ~ N(μ1,μ2,σ21,σ22,ρ)N(\mu_1, \mu_2, \sigma_1^2,\sigma_2^2,\rho)
其中:ρ\rho是相关系数
令:x=(x1,x2)Tx = (x_1, x_2)^T
μ=(μ...
分类:
其他好文 时间:
2015-06-21 15:49:26
阅读次数:
278
PCA算法算法步骤:
假设有m条n维数据。
1. 将原始数据按列组成n行m列矩阵X
2. 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3. 求出协方差矩阵C=1/mXXT
4. 求出协方差矩阵的特征值以及对应的特征向量
5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6. Y=PX即为降维到k维后的数据实例
以这个为例,我们用PCA...
分类:
编程语言 时间:
2015-06-20 10:38:22
阅读次数:
448
降维(一)----说说主成分分析(PCA)的源头降维系列:降维(一)----说说主成分分析(PCA)的源头降维(二)----Laplacian Eigenmaps---------------------主成分分析(PCA)在很多教程中做了介绍,但是为何通过协方差矩阵的特征值分解能够得到数据的主成分...
分类:
其他好文 时间:
2015-06-19 21:29:49
阅读次数:
199
MeteoInfoLab提供一个线性拟合函数linregress,参数是参与拟合的两个数据序列,返回拟合的斜率、截距和相关系数。有了上述拟合参数可以用polyval函数生成拟合数据(直线)。然后可以将数据、拟合线、公式等绘图。脚本程序:fn = os.path.join('D:/KeyData/PM...
分类:
其他好文 时间:
2015-06-19 10:16:30
阅读次数:
148
1人脸的检测和定位:检测图中有没有人脸,将人脸从背景中分割出来,获取人脸或人脸上的某些器官在图像上的位置。2特征提取:提取特征点,构造特征矢量;多个样本图像的空间序列训练出一个模型,它的参数就是特征值;模版匹配法用相关系数做特征;而大部分神经网络方法则直接使用归一化后的灰度图像作为输入,网络的输出就...
分类:
其他好文 时间:
2015-06-16 20:55:49
阅读次数:
101
意义和公式的协方差概率统计研究孩子知道,在最重要的概念的统计是样品平均值,方差,或带有标准偏差一起。首先,我们会给您一个含n采集样本,叙述,这些高中学过数学的孩子都应该知道吧,一带而过。均值:标准差:方差:非常显然,均值描写叙述的是样本集合的中间点,它告诉我们的信息是非常有限的。而标准差给我们描写叙...
分类:
其他好文 时间:
2015-06-16 14:18:59
阅读次数:
103