更新时间:2023-12-30 12:19
回归分析只涉及到两个变量的,称一元回归分析。一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y;估计出的变量,称自变量,设为X。回归分析就是要找出一个数学模型Y=f(X),使得从X估计Y可以用一个函数式去计算。当Y=f(X)的形式是一个直线方程时,称为一元线性回归。这个方程一般可表示为Y=A+BX。根据最小平方法或其他方法,可以从样本数据确定常数项A与回归系数B的值。A、B确定后,有一个X的观测值,就可得到一个Y的估计值。回归方程是否可靠,估计的误差有多大,都还应经过显著性检验和误差计算。有无显著的相关关系以及样本的大小等等,是影响回归方程可靠性的因素。
如果只有一个自变量X,而且因变量Y和自变量X之间的数量变化关系呈近似线性关系,就可以建立一元线性回归方程,由自变量X的值来预测因变量Y的值,这就是一元线性回归预测。
如果因变量Y和自变量X之间呈线性相关,那就是说,对于自变量X的某一值,因变量Y对应的取值不是唯一确定的,而是有很多的可能取值,它们分布在一条直线的上下,这是因为Y还受除自变量以外的其他因素的影响。这些因素的影响大小和方向都是不确定的,通常用一个随机变量(记为)来表示,也称为随机扰动项。于是,Y和X之间的依存关系可表示为
式(1)就是总体的一元线性回归模型。其中是常数。随机扰动项是无法直接观测的随机变量。为了进行回归分析,通常假定,即假定是零均值、同方差、相互独立且服从正态分布的。
对式(1)求均值则有:
通常将式(2)称为总体的一元线性回归方程或总体回归直线,以表示给定自变量值时因变量的均值或期望值。统称为总体回归方程的参数。其中是总体回归方程的常数项,是总体回归直线在Y轴上的截距;是总体回归系数,也是总体回归直线的斜率。由式(2)不难理解,总体回归方程描述的是Y和X两个变量之间平均的数量变化关系。
在实际中,通常由于不可能把变量的全部可能取值收集齐全,总体回归方程中的参数是不可能直接观测计算而得的,是有待估计的未知参数。为此,我们需要根据样本信息来估计。若能通过适当的方法,找到两个样本统计量a、b分别作为参数的估计量,那么用a、b分别替代总体回归方程中的参数,则得到估计的回归方程,也称样本回归方程。一元线性的样本回归方程也称为样本回归直线,其形式如下:
式中,是与自变量取值相对应的因变量均值的估计;a和b分别为总体回归方程参数的估计量,a是样本回归方程的常数项,也就是样本回归直线在Y轴上的截距,表示除自变量X以外的其他因素对因变量Y的平均影响量;b是样本回归系数,也即样本回归直线的斜率,表示自变量X每增加一个单位时因变量Y的平均增加量。
根据样本观察数据估计出a和b的数值之后,样本回归方程(3)可作为预测模型,即一元线性回归预测模型。
如何确定式(3)中的两个系数a和b呢?人们总是希望寻求一定的规则和方法,使得所估计的样本回归方程是总体回归方程的最理想的代表。最理想的回归直线应该尽可能从整体来看最接近各实际观察点,即散点图中各点到回归直线的垂直距离,即因变量的实际值与相应的回归估计值的离差整体来说为最小。由于离差有正有负,正负会相互抵消,通常采用观测值与对应估计值之间的离差平方总和来衡量全部数据总的离差大小。因此,回归直线应满足的条件是:全部观测值与对应的回归估计值的离差平方的总和为最小,即:
最小.
根据式(4)的准则来估计回归方程系数a和b的方法称为最小平方法或最小二乘法。显然,在给定了X和Y的样本观察值之后,离差平方总和的大小依赖于a和b的取值,客观上总有一对a和b的数值能够使离差平方总和达到最小。利用微分法求函数极值的原理,即可得到满足式(4)的两个正规方程:
解上述方程可以求得a和b。通常将a和b的计算公式写为如下形式:
【例1】为了研究某地区某行业企业广告支出对销售收入的影响,随机抽取了8个企业,调查得知它们的广告费与销售额的数据如表1的第(1)和(2)列所示,试建立企业广告费与销售额之间的回归方程。
解:通常企业的广告投入越多,产品销售额就会越多,但是具有相同广告支出的企业,其产品销售额并不完全相同,因为企业销售额不仅受广告投入的影响,同时还受许多其他因素的影响,这些影响因素存在不确定性,甚至有些是无法观察的。所以,企业的广告费与产品销售额之间的关系不是函数关系而是相关关系。广告费支出显然是影响销售额的一个重要因素,应该以广告费为自变量X,以销售额为因变量Y。观察广告费与销售额的相关关系的形态需绘制散点图(相关图)。在Excel中,先将X、Y两个变量的数据放在相邻两列或两行(X在前,Y在后),然后用鼠标选定数据区域,再单击菜单栏“插入”下的“图表”,选择标准类型中的“XY散点图”即可(也可先选定“XY散点图”后在空白图形中单击右键“选择数据”再指定X和Y的数据所在区域)。在SPSS中,单击菜单栏的“图形(Graphs)”,选择其下的“散点图/点图(Scatter)”,在随即弹出的子图形类型中选择第一个图形,即简单散点图,将所分析的变量分别选入Y轴和X轴即可。
由表1的第(1)和(2)列的数据绘制相关图,如图1所示。
由图1可知,随着广告费的增加,企业销售额也相应增加,而且样本点的分布仅仅围绕在一条直线上下,表明销售额Y与广告费X之间存在非常密切的线性正相关关系,所以销售额Y与广告费X的回归方程应该是个一元线性回归方程。图1中的直线正是所要求的样本回归直线,其对应的数学表达式就是我们所要估计的一元线性回归方程。先列表计算出估计一元线性回归方程参数所需数据,如表1的第(3)至(4)列所示。由式(6)可计算回归方程参数的估计值为
所求的回归方程为:。
上述回方程表明,如果没有广告投入(x=0 时),销售额平均只有189.75百万元。
广告费每增加1万元,企业销售额将平均增加53.1万元。