更新时间:2023-02-19 20:58
在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况
计量资料的频数分布有集中趋势和离散趋势两个主要特征。仅仅用集中趋势来描述数据的分布特征是不够的,只有把两者结合起来,才能全面地认识事物。我们经常会碰到平均数相同的两组数据其离散程度可以是不同的。一组数据的分布可能比较集中,差异较小,则平均数的代表性较好。另一组数据可能比较分散,差异较大,则平均数的代表性就较差。描述一组计量资料离散趋势的常用指标有极差、四分位数间距、方差、标准差、标准误差和变异系数等,其中方差和标准差最常用。
极差又称全距,是指一组数据的观察值中的最大值和最小值之差。用公式表示为:
极差=最大观察值-最小观察值
极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。两组数据的最大值和最小值可能相同,于是它们的极差相等,但是离散的程度可能相当不一致。由此可见,极差往往不能反映一组数据的实际离散程度,极差所反映的仅仅是一组数据的最大的离散值。极差是最简单的变异指标,但是,太简单,因此,只用于一般预备性检查。
平均差是指一组数据中的各数据对平均数的离差绝对值的平均数。一组数据中的各数据对平均数的离差有正有负,其和为零,因此平均差必须用离差的绝对值来计算。平均差愈大,表示数据之间的变异程度越大,反之则变异程度越小。
平均差用绝对值来度量,虽然避免了正负离差的相互抵消,但不便于运算。一般情况下,可用方差来度量一组数据的离散性。方差通常用字母σ2来表示。
为了使统计量的单位同观察值的单位相一致,通常将方差开平方,即得到标准差σ,标准差也称为均方差。 由定义可知,方差和标准差所反映的是一组数据对其均值为代表的中心的某种偏离程度。从定义可知,标准差(或方差)较小的分布一定是比较集中在均值附近的,反之则是比较分散的。标准差的缺点是计算起来比较麻烦。标准差也是根据全部数据来计算的,但是它也会受到极端值的影响。标准差的计算要比平均差方便,因此,标准差是描述数据离散趋势最常用的统计量。
样本标准差来估计总体的标准差时,就需要计算样本的方差和标准差。仅需要对总体方差和标准差的计算公式作一些调整即可。
标准差的概念在统计上具有重要的作用。对于任意一个总体,在确定了标准差以后,就可以精确地确定总体中的单位落在平均数两侧某个范围内的频率大小。对于正态分布的情形,在下一小节中,我们将介绍数据落在某个特定范围内概率的大小及其意义。
补充:正是因为标准差的计算应用到每一个变量值,所以,会受到极端值的影响。当数据中有较明显的极端值时不宜使用。实际上,标准差的适用范围应当是服从正态分布的数据。
标准差和方差因为计算中应用到每一个变量值,所以,它们反映的信息在离散指标中是最全的,也是最可靠,最理想的变异描述指标。
spss有专门一章是方差分析的,这一章是联系基本统计分析和多元统计分析的桥梁。但是,必须知道这一点:所有方差分析的前提是:样本总体服从正态分布,这是非常重要的。如果不服从,就要有补救措施。其实,要想样本服从正态分布,就最好样本量大一些。有些数据的本质就不是正态分布,所以,方差分析虽然应用很广,但是,并不是万能的
标准差是表示所有数据离散性大小的一个绝对值,其度量单位与原数据的度量单位相同。因此,标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。例如一个总体的标准差是10,均值是100。如果另有一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后一总体的标准差是前一总体标准差的2倍,似乎前一总体的分布集中,而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的1/10;后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的分散程度更合理。统计上把这一比例称为变异系数。其实,变异系数就是为了消除测量尺度和量纲的影响,变异系数本身没有量纲,但是它按照其均数大小进行标准化,这样就可以客观比较。