更新时间:2024-03-09 14:40
残差平方和是在线性模型中衡量模型拟合程度的一个量,用连续曲线近似地刻画或比拟平面上离散点组,以表示坐标之间函数关系的一种数据处理方法。用解析表达式逼近离散数据的一种方法。在科学实验或社会活动中,通过实验或观测得到变量x与y的一组数据对(xe,ye)(e=1,2,…ə),其中各xe是彼此不同的 。人们希望用一类与数据的背景材料规律相适应的解析表达式,y=f(x,c)来反映变量x与y之间的依赖关系,即在一定意义下“最佳”地逼近或拟合已知数据。f(x,c)常称作拟合模型 ,式中c=(c1,c2,…cə)是一些待定参数。
为了明确解释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异称为残差,把每个残差平方之后加起来 称为残差平方和,它表示随机误差的效应。一组数据的残差平方和越小,其拟合程度越好。
线性参数测量数据的残差平方和可进一步写成
(对等精度测量)
(对非等精度测量)
式中符号的意义与前面相应的的符号一致。
以上给出了残差平方和的一般形式。在具体解算时,从计算方便考虑,对不同的解算方法,残差平方和的计算各有相应的具体方法。
解释变量与残差平方和
残差平方和RSS具有以下性质:
性质1 只有常数项没有其他解释变量的回归方程的RSS和TSS相等,其决定系数为0。
性质2 增加解释变量必然导致RSS减小。因此,如果想降低RSS,只要在回归方程中尽可能地加入解释变量就能达到目的。
性质3 包含常数项全部解释变量的个数K等于样本数n时,RSS为0,决定系数为1。
F检验和t检验之间的关系
在一些场合t检验不仅可以进行双侧检验,也可以进行单侧检验。而F检验没有单侧和双侧的区别。当进行双侧检验的时候两种检验的P值相同。
概率分布
残差带权平方和除以单位权方差服从 分布。即
式中自由度f就是平差中多余观测数。由于 , ,f对于一个平差系统是不变量,与具体采用的平差方法无关。
数学期望和方差
易知 的数学期望为
由此可知
即单位权方差 为 的无偏估计。
且
则有
或
即方差估计 的标准差与 成正比与 成反比。可见自由度f 愈小,方差估计 的精度就愈差。
概率表达式
或
分位值 , 以自由度f和显著水平 可由 分布表中查得。