更新时间:2024-09-28 09:13
在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。
总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的: 。
皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量(由符号确定)。也就是说,我们如果把移动到和把Y移动到,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立),其中a、b、c和d是常数。我们发现更一般的线性变换则会改变相关系数:
由于 ,则 ,同理;
故相关系数也可以表示成
对于样本皮尔逊相关系数:
以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。
皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且随着 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且随着 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
更一般的, 我们发现,当且仅当 和 均落在他们各自的均值的同一侧, 则 的值为正。 也就是说,如果 和 同时趋向于大于或小于其各自的均值,则相关系数为正。 如果 和 趋向于落在其均值的相反一侧,则相关系数为负。
1.几何学的解释
对于没有中心化的数据, 相关系数与两条可能的回归线(红)和 (蓝)夹角的余弦值一致。
对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角 的余弦值。
一般倾向于使用非中心化的相关系数, 比较如下:
例如,有5个国家的国民生产总值分别为10,20,30,50和80亿美元。假设这5个国家 (顺序相同) 的贫困百分比分别为11%,12%,13%,15%和18%。令x和y分别为包含上述5个数据的向量:x = (1, 2, 3, 5, 8) 和y ,= (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法计算两个向量之间的夹角,未中心化的相关系数是:
我们发现以上的数据完全相关:。于是,皮尔逊相关系数应该等于1。将原始的x和y数据通过和中心化 (,),得到新的和,此时:
2.皮尔逊距离
定义式为,其值的区间为。
样本相关系数的平方, 亦称作决定系数(coefficient of determination),利用简单线性回归估计由引起的的变化。
将围绕它们平均值上的变化分解为:
其中 是作回归分析时的适应值。 整理后得:
等式左边表示由非引起的变化,右边两个被加数表示由引起的的变化。
接下来, 我们利用最小方差回归模型, 使和 的样本协方差为0。 于是,观测数据和适应值的样本相关系数可以被写成
于是
等式表示的线性方程会引起的平均变化。