正态检验p值大于0.05,正态性检验p值是什么

  正态检验p值大于0.05,正态性检验p值是什么

  通用条款177 /drdxf在之前的文章中已经说过,很多模型的假设是数据是正态分布的。本文主要谈如何判断数据是否符合正态分布。主要有两种方法:描述性统计方法和统计检验方法。

  01.描述统计方法。描述统计是用描述的数字或图表来判断数据是否符合正态分布。常用的方法有Q-Q图、P-P图、直方图和茎叶图。

  1.1 Q-Q图这个Q-Q不是用来聊天的QQ。q是分位数的缩写,即分位数。分位数就是把数据从小到大排序,然后切成100份,看不同位置的值。例如,中位数是中间位置的值。

  Q-Q图的x轴是分位数,y轴是分位数对应的样本值。X-y是散点图的形式,通过它可以拟合一条直线。如果这条直线是从左下角到右上角的直线,可以判断数据符合正态分布,否则不可能。

  拟合的直线和正态分布有什么关系?为什么可以根据这条直线来判断数据是否符合正态分布?

  我们先来思考一下正态分布的特点。正态分布的X轴是样本值,X从左到右逐渐增大,Y轴是每个样本值的概率。概率值先升后降,在中间位置达到最高。

  Q-Q图中的y轴可以理解为正态分布中的x轴。如果拟合的直线是45度,可以保证中位数两边的数值分布是相同的,即正态分布是基于中位数左右对称的。

  在Python中,可以使用以下代码来绘制Q-Q图:

  froipyimportstatfig=PLT . figure()RES=stats . proplot(x,plot=PLT) PLT.show()类似于Q-Q图,是P-P图。两者的区别在于,前者的Y轴是特定分位数对应的样本值,后者是累积概率。

  1.2直方图直方图分为两种,一种是频率分布直方图,一种是频率分布直方图。频率是样本值出现的次数,频率是某个值出现的次数与所有样本值出现的总次数之比。

  在Python中,我们可以使用下面的代码来绘制频率分布直方图:

  importmatplotlib . pyplotaspltplt . hist(x,bins=10)

  您可以使用以下代码来绘制频率分布直方图:

  importseabornassnssns . distplot(x)

  与直方图类似的还有茎叶图,它类似于表格的形式来显示每个值出现的频率。

  02.统计检验方法。描述完统计方法,我们再来看看统计检验方法。统计方法主要有SW检验、KS检验、AD检验和W检验。

  SW测试中的s是偏度,W是峰度。我们在上一篇文章中已经讲过峰度和偏度与正态性的关系。没看过的可以去看看:你站在哪一边?

  2.1 KS检验KS检验是基于样本的累积分布函数。它可以用来判断一个样本集是否符合已知分布,也可以用来检验两个样本之间的显著性差异。

  如果是判断一个样本是否符合已知的分布,比如正态分布,就需要先计算标准正态分布的累积分布函数,再计算样本集的累积分布函数。两个函数在不同的值下会有不同的差异。我们只需要找到差异最大的点D。然后根据样本集的样本数和显著性水平求差异边界值(类似于t-检验的边界值)。判断边界值与d的关系,如果d小于边界值,可以认为样本的分布符合已知分布,否则不能。

  PDF(概率密度函数):概率密度函数。

  CDF(累积分布函数):累积分布函数,是概率密度函数的积分。

  Python中有现成的包可以直接用于KS验证:

  From scipy.statsimportkstestkstest,cdf= norm) X表示要测试的样本集。CDF用于表示待判断的已知分布类型,inc

  2.2 AD test AD test是在KS的基础上修改的。KS检验只考虑两个分布差异最大的点,但容易受到异常值的影响。AD检验考虑分布中每一点的差异。

  在Python中,可以使用以下代码:

  来自scipy。StatSimportandsAnderson (x,dist= norm) x是要测试的样本集,dist用于表示已知分布的类型。可选值与ks测试中的值一致。

  上面的代码会返回三个结果:第一个是统计值,第二个是评价值,第三个是每个评价值对应的显著性水平。

  AD测试和安德森有什么关系?安德森发明了广告测试。

  2.3 W检验W检验(夏皮罗-维尔克的简称)是根据两个分布的相关性来做出判断,会得到一个类似皮尔逊相关系数的值。值越大,两个分布越相关,越符合某个分布。

  Python中的实现代码如下:

  上述来自scipy.statsimportShapiro (x)的代码将返回两个结果:W值及其对应的p_value。

  夏皮罗专门用于正态性检验,所以不需要注明分布类型。而shapiro不适合样本数> 5000的正态性检验。

  3.非正态数据的处理方法。一般来说,数据要么是正常的,要么是有偏差的。如果偏斜不严重,可以通过求平方根来转换数据。如果偏斜严重,可以对数据进行对数转换。歪斜的文章里也提到了变换的方法。

  您还可以观看:

  谈置信度和置信区间

  统计假设检验

  一元线性回归分析

  方差分析

  多元方差分析

  卡方检验解释

  多重比较法-LSD

  多元回归分析

正态检验p值大于0.05,正态性检验p值是什么