假设检验是利用样本统计值来验证对总体的假设是否正确,统计学简述假设检验的一般步骤
请点击原文阅读,查看雀中。
33559 www。于芬/恩兹妮
翻译源
3359 machine learning mastery . com/python-cheat-sheet中的统计假设测试/
验证机器学习所需的17个统计假设的快速参考指南,提供Python的样本代码。
虽然有数百种统计假设测试可用,但在机器学习项目中可能只需要使用一小部分。
在本文中,我们来看看机器学习项目中最流行的统计假设验证手册。有使用Python API的例子。统计检查方法是否一致,包括:检查的名称
检查内容。
验证的一个重要假设。
测试结果如何?
用于测试的Python API。
请注意,如果涉及到数据的预期分布和样本大小等假设,违反某个假设可能会有所降低,而不是某个测试的结果立即变得不可用。
一般来说,数据样本必须具有区域代表性,并且足够大,以揭示和分析其分布。
在某些情况下,可以修改数据以满足假设。例如,通过移除异常值将接近正态分布的值修改为正态分布,或者如果样本具有不同的方差,则在统计测试中使用自由度修改。这是两个例子。
最后,可能有几种方法来检查具体的关注点,如正常性。我们无法通过统计得到问题的明确答案;而是得到概率的答案。因此,我们可以通过考虑问题的不同方式来获得同一问题的不同答案。因此,对于一些数据问题,可能需要进行各种检查。
检查目录的正常性
相关检查
稳定性检查
参数的统计假设检验
非参数统计假设检验
Lldej检查
达戈斯蒂诺的K 2检查
安德森-达林试验
皮尔逊相关系数
斯皮尔曼水平相关
肯德尔等级相关
卡方测验
增广的迪基-富勒
基科夫斯基-菲利普斯-施密特-申事件
学生托福考试
配对学生t检验
分散检验(ANOVA))。
方差检验的重复测量分析
曼-惠特尼U检验
Wilcoxon信号通道检查
克鲁斯卡尔-沃利斯H检验
弗里德曼试验
本教程分为以下五个部分:
1.规范性检验的正态性检验
本节列出了可用于检查数据是否具有瘦车分布的统计检验。
夏皮罗-维尔克检验假设
H0)样本具有细长的汽车分布。
)H1)样本不具有细长的汽车分布。
每个样本的观测值是独立的,具有相同的分布()。
Python代码# exampleofshapiro-wilknormalitytest
来自scipy.stats import shapiro
数据=[ 0.873,2.817,0.121,-0.945,-0.055,-1.436,-0.360,-1.478,-1.637,-1.869]
Stat,p=Shapiro(数据))。
Print (stat=%.3f,p=%.3f) stat,p))
如果p 0.05:
可传输高斯(打印))。
否则:
打印(非高斯))
详细信息代理introductionnormalitytestsinpython
夏皮罗
维基百科夏皮罗-威尔克测试
达戈斯蒂诺的K 2检测达戈斯蒂诺的K 2的测试数据样本是否具有细长的汽车分布。
假设
H0)样本具有细长的汽车分布。
)H1)样本不具有细长的汽车分布。
每个样本的观测值是独立的,具有相同的分布()。
代码#示例d agostino sk 2正常测试
来自scipy.statsimportnormaltest
数据=[0.873、2.817、0.121 、-0.945 、-0.055 、-1.478、0.360 、-1.478 、-1
.637, -1.869]
stat,p=正常测试(数据)
print(stat=%.3f,p=%.3f % (stat,p))
如果p 0.05:
打印(“可能是高斯型”)
否则:
打印(“可能不是高斯”)
更多信息Python中的正态性测试简介
scipy.stats.normaltest
达戈斯蒂诺在维基百科上的K平方测试
Anderson-Darling测试Anderson-Darling测试数据样本是否具有瘦车分布。
假设
解释H0:样本有一个薄的汽车分布。
H1:样本不具有薄的汽车分布。
每个样本中的观测值都是独立同分布的(iid)。
Python代码#安德森-达令正态性测试的例子
来自scipy.stats import anderson
数据=[0.873,2.817,0.121,-0.945,-0.055,-1.436,0.360,-1.478,-1.637,-1.869]
结果=安德森(数据)
print( stat=%。3f“%”(结果。统计))
对于范围内的我(len(结果。关键值)):
sl,cv=结果。重要性_级别[我],结果。关键值[我]
if result.statistic cv:
打印(可能是处于%.1f%%级别的高斯型% (sl))
否则:
打印(在%.1f%%级别上可能不是高斯型% (sl))
更多信息计算机编程语言中的正态性测试简介
scipy.stats.anderson
维基百科上的安德森-达令测试
2.相关性检验相关性测试
本节列出了可用于检查两个样本是否相关的统计测试。
皮尔逊相关系数皮尔逊相关系数检验两个样本是否有线性关系。
假设
解释H0:两个样本是独立的。
H1:样本之间有依赖性。
每个样本中的观测值都是独立和相同分布的(iid)。
每个样本中的观测值都是正态分布。
每个样本中的观测值具有相同的方差。
计算机编程语言代码皮尔逊相关性测试的示例
从scipy.stats导入皮尔森
data1=[0.873,2.817,0.121,-0.945,-0.055,-1.436,0.360,-1.478,-1.637,-1.869]
data2=[0.353,3.517,0.125,-7.545,-0.555,-1.536,3.350,-1.578,-3.537,-1.579]
stat,p=pearsonr(数据1,数据2)
print(stat=%.3f,p=%.3f % (stat,p))
如果p 0.05:
打印("可能独立")
否则:
打印("可能依赖")
更多信息如何在计算机编程语言中计算变量之间的相关性
科学统计
维基百科上的皮尔逊相关系数
斯皮尔曼秩相关斯皮尔曼等级相关检验两个样本是否有单调关系(单调关系).
假设
解释H0:两个样本是独立的。
H1:样本之间有依赖性。
每个样本中的观测值都是独立的、同分布的(iid)。