偏最小二乘回归法

更新时间:2022-08-25 18:07

偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应变量和自变量之间最大方差超平面,而是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型(bilinear fator models)。当Y是分类数据时称为“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”。

介绍

偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是Tikhonov正则化)。

偏最小二乘算法被用在偏最小二乘路径建模中,一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。

偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold)是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回归最常用于社会科学、计量经济学、市场营销和战略管理。

偏最小二乘法是集主成分分析典型相关分析多元线性回归分析3种分析方法的优点于一身。它与主成分分析法都试图提取出反映数据变异的最大信息,但主成分分析法只考虑一个自变量矩阵,而偏最小二乘法还有一个“响应”矩阵,因此具有预测功能。

研究认为,集多元线性回归分析、典型相关分析、主因子分析等方法于一体的偏最小二乘回归方法( PLS) 更适用于FM 分析, 可以避免数据非正态分布、因子结构不确定性( factor indeterminacy) 和模型不能识别等潜在问题。

底层模型

偏最小二乘的一般多元底层模型是

其中 是一个 的预测矩阵, 是一个 的响应矩阵; 和 是 的矩阵,分别为 的投影(“X分数”、“组件”或“因子”矩阵)和 的投影(“Y分数”); 和 分别是 和 的正交载荷矩阵,以及矩阵 和 是误差项,服从独立同分布的正态分布随机变量。对 和 分解来最大化 和 之间的协方差

算法

偏最小二乘的许多变量是为了估计因子和载荷矩阵 和 。它们中大多数构造了 和 之间线性回归的估计。一些偏最小二乘算法只适合 是一个列向量的情况,而其它的算法则处理了 是一个矩阵的一般情况。算法也根据他们是否估计因子矩阵为一个正交矩阵而不同。最后的预测在所有不同最小二乘算法中都是一样的,但组件是不同的。

扩展

2002年,一个叫做正交投影(英语:Orthogonal Projections to Latent Structures, OPLS)的方法提出。在OPLS中,连续变量数据被分为预测的和不相关的信息。这有利于改进诊断,以及更容易解释可视化。然而,这些变化只是改善模型的可解释性,不是生产力。L-PLS通过3个连接数据块扩展了偏最小二乘回归。同样,OPLS-DA(英语:Discriminant Analysis, 判别分析)可能被应用在处理离散变量,如分类和生物标志物的研究。

软件实现

大多数统计软件包都提供偏最小二乘回归。R中的‘pls’包提供了一系列算。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}