数据分析中经常需要对数据进行描述性统计分析,例如给定一组数据,需要求和、求均值、求最大值/最小值、求中位数、求方差等。
本文将介绍数据分析中常用的12个统计量及其对应的Excel公式。
求和,就是将一组数据相加,在Excel中,通过sum公式即可求和。
平均值,一组数据相加,再除以数据的个数得到的结果就是均值。
在Excel中,可以通过函数average来求均值。
最大值,就是找出一组数据中的最大值,数据少的时候肉眼即可找出,数据多的时候就需要用到公式来求,Excel中的公式max可以求出最大值。
最小值,就是一组数据中的最小值,Excel中的公式min可以求出最小值。
极差,表示一组数据中的最大值与最小值之差。
在Excel中,没有直接求极差的公式,我们可以先用max和min分别求出最大值和最小值,然后作差即可。
众数,表示一组数据中出现次数最多的数值。
例如,有数据:1,2,1,2,1,3,4,很明显,数字1出现的次数最多,出现了3次,所以这组数据的众数就是1。
当然,也有多个众数的情况,例如,1,2,1,2,1,2,3,在这组数据中,1和2都分别出现了三次,所以这组数据的众数有两个,分别是1和2。
在Excel中,可以通过函数MODE.SNGL来求众数,如果有多个众数,用MODE.MULT。
中位数,就是将总体中的各个数据按照升序排列,处于中间位置的数值,就是中位数。
例如,5,3,1,4,2,升序排列后:1,2,3,4,5,中间位置上的数据为3,所以中位数为3。
当然,还有一种情况,如果有偶数个数据,则中位数是中间位置两个数字的平均值。
例如,5,3,1,4,2,6,升序排列后,1,2,3,4,5,6,中间位置上取两个数字:3和4,则中位数为3和4的平均值3.5。
在Excel中,通过median来求中位数。
四分位数,将所有数据由小到大排列,分成四等分,此时会产生三个分割点,这三个分割点上的数字就是四分位数。
例如,给定一组数据,5,3,1,4,2,6,8,7,9,升序排列后,1,2,3,4,5,6,7,8,9
第一个分位点上的数字,叫作第一个四分位数,也叫下四分位数。
它的位置可以根据公式
确定,这里n=9,计算后得到3,所以取第3个数作为第一个四分位数。
第二个分位点上的数字,即第二个四分位数,其实就是中位数5。
第三个分位点上的数字,叫作第三个四分位数,也叫上四分位数。
它的位置可以根据公式
确定,计算得到7,所以取第7个数作为第三个四分位数。
当然,在Excel中可以用公式QUARTILE.INC可以很容易求出各个四分位数。
四分位差,顾名思义,就是四分位数的差值,是指上四分位数和下四分位数之差,也叫四分位距。
四分位差反映了数据中间50%的离散程度,其数值越小,表示数据越集中,反之,表示数据越分散。
方差反映了数据的波动性,用数学语言表示就是,各变量值与其均值离差平方的均值。
例如,有以下两组数据。
组1:4,5,1,4,5,2,4
组2:4,3,4,4,5,4,4
绘制出折线图如下。
从图中可以看出,数据组1的波动性明显大于组2,也就是说数据组1的方差大于组2。
在Excel中,通过公式var.s可以求出方差。
标准差,就是方差开方得到。
由于方差是在原来数据的基础上进行了平方,所以单位发生了变化,标准差的单位则和原来的数据一致,所以在实际分析时,标准差使用得更多。
在Excel中,通过公式stdev.s可以求出标准差。
偏态系数衡量数据分布的对称性,对于正态分布来说,左右对称,如下图中间这个图所示。
左右两侧的图不对称,称之为偏态,左边的称为正偏态,右边的称为负偏态。
我们用偏态系数来衡量偏态,用sk表示偏态系数。
当sk>0时,分布是正偏态的。
当sk=0时,分布是对称的。
当sk<0时,分布是负偏态的。
在Excel中,通过skew公式可以很容易计算出一组数据的偏态系数。
峰态系数表示数据分布的扁平程度的度量。例如,不同峰态的分布如下图所示。
用峰态系数可以衡量峰态,峰态系数用K来表示。
当K>0时,分布比较高尖,为尖峰分布。
当K<0时,分布比较矮胖,为平峰分布。
在Excel中,可以通过公式kurt来计算峰态系数。