更新时间:2022-08-25 15:15
方差扩大因子(variance inflation factor)简称VIF,是表征自变量观察值之间复共线性程度的数值。线性回归分析中,回归系数βj的估计量的方差为σ2Cjj,其中Cjj=(1-Rj)-1,称Cjj为βj的方差扩大因子,这里Rj为xj对其余p-1个自变量的复相关系数的平方,显然Cjj≥1,它的大小可以反映出自变量的观察值之间是否存在复共线性以及其程度如何,Cjj越大,复共线性越严重。
方差扩大(膨胀)因子法是通过考察给定的解释变量被方程中其他所有解释变量所解释的程度,以此来判断是否存在多重共线性的一种方法。方程中的每一个解释变量都有一个方差扩大(膨胀)因子(variance inflation factor,VIF),它反映的是多重共线性在多大程度上增大估计系数方差的指标。统计上可以证明,解释变量、参数估计值的方差可表示为:
式中,是变量的方差扩大因子,即,这里的是多个解释变量辅助回归的可决系数。越大,说明变量间多重共线性越严重,方差膨胀因子也就越大。经验表明,时,说明解释变量与其余解释变量之间有严重的多重共线性。且这种多重共线性可能会过度地影响最小二乘估计。
在不存在多重共线性的情况下,方差扩大因子接近于1。但是,实际上自变量之间总是或多或少地存在多重共线性,因而将方差扩大因子等于1作为评价共线性的标准是不现实的。多重共线性越强,方差扩大因子就越大。一个易用的标准:当VIF值大于10时,就认为变量之间具有强烈的多重共线性,不能接受。
如果VIF暗示自变量之间存在过于强的相关性,那么可以采用的补救措施如下:
(1)去掉VIF较大的变量。
(2)将相关的变量组合成单一的一个变量。
多元线性回归模型的一个基本假设,就是要求自变量矩阵X的列满秩,即秩(要求X中的列向量之间与线性无关)。如果X的列不满秩,则将不存在,于是基于最小二乘的回归系数估计,将不存在,所以很难得出稳定的结果。
如果存在不全为0的p+1个数,使得:
则自变量之间存在完全多重共线性。实际问题中,当存在不全为0的p+1个数,使得:
考虑线性回归模型:
这里假定X已中心标准化,且,这时即为相关阵R。下面给出几个常用的复共线性诊断方法及其一般标准。
完全多重共线性的情况并不多见,在回归分析之前,也很容易发现存在完全多重共线性的解释变量。可以采用以下三种方法来判断是否存在完全多重共线性:第一,考察一个变量是否是另一个变量的倍数;第二,考察一个变量是否等于另一个变量加上一个常数项;第三,考察一个变量是否等于另外两个变量相加。如果存在以上几种情况,就应该剔除其中的一个变量。
方差扩大因子()定义为:
其中为对其余p-1个自变量的复相关系数的平方,。
可以看出,当时。
一般标准:
①当时,没有复共线性;
②当时,有较弱的复共线性;
③当时,有中等或较强的复共线性;
④当时,有严重的复共线性。由于(称为容忍值),所以也可以用来诊断复共线性。
在此仅讨论VIF,有的统计软件给出的是容忍值。
的p个次序特征根为:
一般标准:
①当时,可认为不存在复共线性;
②当时,有弱的复共线性;
③当时,有中等或较强的复共线性;
④当时,有严重的复共线性。
方阵的条件数()定义为:
一般标准:
①当时,没有复共线性;
②当时,有较弱的复共线性;
③当时,有中等或较强的复共线性;
④当时,有严重的复共线性。
当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值会发生较大变化,我们就认为回归方程存在严重的多重共线性。
从定性分析的角度来看,若一些重要的自变量在回归方程中没有通过显著性检验,可初步判断它们存在着严重的多重共线性。若自变量的回归系数所带正负号与定性分析结果违背,我们就认为它们存在着多重共线性问题;自变量的相关矩阵中,自变量间的相关系数较大时,可能会出现多重共线性;一些重要的自变量的回归系数的标准误差较大时,可能存在多重共线性。