更新时间:2024-07-03 08:47
确定系数亦称测定系数、决定系数、可决指数。与复相关系数类似的,表示一个随机变量与多个随机变量关系的数字特征,用来反映回归模式说明因变量变化可靠程度的一个统计指标,一般用符号“R”表示,可定 义为已被模式中全部自变量说明的自变量的变差对自变量总变差的比值。
表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释.
相关系数(coefficient of correlation)的平方即为决定系数。它与相关系数的区别在于除掉|R|=0和1情况,
由于R2 确定系数:在Y的总平方和中,由X引起的平方和所占的比例,记为R2(R的平方) 确定系数的大小决定了相关的密切程度。 当R2越接近1时,表示相关的方程式参考价值越高;相反,越接近0时,表示参考价值越低。这是在一元回归分3析中的情况。但从本质上说确定系数和回归系数没有关系,就像标准差和标准误差在本质上没有关系一样。
表达式:R2=SSR/SST=1-SSE/SST
其中:SST=SSR+SSE,SST (total sum of squares)为总平方和,SSR (regression sum of squares)为回归平方和,SSE (error sum of squares) 为残差平方和。
注:(不同书命名不同)
回归平方和:SSR(Sum of Squares for regression) = ESS (explained sum of squares)
残差平方和:SSE(Sum of Squares for Error) = RSS (residual sum of squares)
总离差平方和:SST(Sum of Squares for total) = TSS(total sum of squares)
SSE+SSR=SST RSS+ESS=TSS
意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。
取值范围:0-1.
判定系数只是说明列入模型的所有解释变量对因变量的联合的影响程度,不说明模型中单个解释变量的影响程度。
对时间序列数据,判定系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。
判定系数达到多少为宜?
没有一个统一的明确界限值;
若建模的目的是预测因变量值,一般需考虑有较高的判定系数。
若建模的目的是结构分析,就不能只追求高的判定系数,而是要得到总体回归系数的可信任的估计量。判定系数高并不一定每个回归系数都可信任。
判定系数和相关系数的区别
*判定系数 *相关系数
就模型而言 就两个变量而言
说明解释变量对因变量的 度量两个变量线性依存程度。
解释程度。
度量不对称的因果关系 度量不含因果关系的对称相关关系
取值:[0,1] 取值:[-1,1]