学习笔记2.1.2

时间：2014-05-08 01:22:33 阅读：354 评论：0 收藏：0 [点我收藏+]

2>残差的正态性检验：

Shapiro-Wilk正态性检验【转】

Shapiro-Wilk (SW) 检验

介绍

有多种手段评估数据是否正态分布。分两大类：图形和统计量。图形手段包括q-q plot和p-p plot，统计量手段包括Kolmogorov-Smirnov 检验 and Shapiro-Wilks 检验。

Samuel Shapiro 和 MartinWilk[2]于1965年提出了Shapiro–Wilk 检验。他们观察到Normal probability plot与线性回归很类似。Normalprobability plot是q-q plot的特例，检查样本数据集是否匹配某正态分布，比如标准正态分布N(0,1)。

何时使用

Shapiro-Wilk检验用于验证一个随机样本数据是否来自正态分布。

在实际使用中，除了Shapiro-Wilk检验的结果，还应配上normal probability plot，提供样本分布形状方面的非量化信息。

假设

设 Y₁< Y₂ < … < Y_n 是数量是n的一个排序的样本，需要验证其是否符合正态分布。假设是：

H₀: 样本数据与正态分布没有显著区别。

H_A: 样本数据与正态分布存在显著区别。

如何检验

检验使用的统计量W 定义为

bubuko.com,布布扣

其中

1. bubuko.com,布布扣是样本均值。

2. a = (a_l ,… , a_n)^T 符合以下条件： (Σa_iy_i )²是(n -1) σ²^,的最佳线性无偏估计(best linear unbiased estimate, BLUE [3])，σ 是样本来自的正态分布的标准差。 a 的确切值是：

a=(m^T V^-1 V^-1 m)^-1/2m^TV^-1

其中矩阵V 是个协方差矩阵(covariance matrix)，属于n个标准正态分布的随机变量的顺序统计量(order statistics)，m是这些变量的期望组成的向量。

3. W的分母是通常使用的(n -1) σ²的一个无偏估计。

如果样本数据的确来自一个正态分布，统计量W的分子和分母均会趋向一个常数：(n -1) σ²的估计值。对于非正态分布的数据而言，分子和分母通常不会趋向同一个常数。

统计量W 最大值是1，最小值是na₁²/(n-1)。

可以把W看作是顺序排列样本值( y_i ) 和系数a_i之间相关系统的平方(squared correlation coefficient)或者是线性回归的确定性系数(coefficientof determination R² for linear regression)，它的值越高，越表示样本与正态分布匹配。

有了统计量，我们就可以设定一显著性水平α（常见的是0.05），然后获得它的分位数或者临界值W_α，如果W < W_α则拒绝H₀，否则接受H₀。如果使用p-value，如果p-value 小于显著性水平α.，则拒绝H₀。

注释：

不幸的是，针对大多数n，统计量W的分布是未知的，必须通过模拟，造表或者近似方法（比如Royston的方法[4][5]）获得。如下图显示，Samuel Shapiro 和 Martin Wilk 在[2]中为几个不同的样本规模画了W的C.D.F (累积分布函数)曲线。

bubuko.com,布布扣

在R中的使用方法

在R中使用此种检验方法很简单。设Y =(y₁, . . . , y_n)是一数据向量，直接输入命令shapiro.test(Y)，就可以获得W的值和对应的p-value。如果p-value 小于设定的显著性水平（比如0.05），就拒绝正态分布假设，否则就不能拒绝。R允许样本规模到5000。

如下图示，我们用函数rnorm获得一个标准正态分布的随机样本，然后用函数Shapiro.test检验它的正态性。

bubuko.com,布布扣

结果显示p-value大于显著性水平0.05，所以不能拒绝零假设：样本来自正态分布。

References

1. Statistical Analysis Handbook,Shapiro-Wilk

http://www.statsref.com/HTML/index.html?shapiro_wilk.html

2. Shapiro S S, Wilk M B (1965) AnAnalysis of Variance Test for Normality (Complete Samples). Biometrika,52(3/4), 591-611.

3. https://en.wikipedia.org/wiki/Best_linear_unbiased_estimator

4. Royston P (1982) An extensionof Shapiro and Wilk‘s W test for normality to large samples. AppliedStatistics, 31, 115–124.

5. Royston P (1992) Approximatingthe Shapiro-Wilk W test for non-normality. Statistics and Computing 2: 117.

学习笔记2.1.2,布布扣,bubuko.com

学习笔记2.1.2

标签：style blog ext width http strong

原文地址：http://www.cnblogs.com/wangwp/p/3714678.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行