更新时间:2023-04-29 15:09
贝叶斯估计(Bayesian estimation)是利用贝叶斯定理结合新的证据及以前的先验概率,来得到新的概率。它提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
贝叶斯估计将后验概率(考虑相关证据或数据后,某一事件的条件机率)推导为二个前、先验概率(考虑相关证据或数据前,某一事件不确定性的机率)及似然函数(由概率模型推导而得)的结果。贝叶斯推断根据贝叶斯定理计算后验概率:
其中,
1) 表示将某事件成立作为条件(因此 表示假定B成立的A)
2)表示假说,其机率可能会受实验数据(以下会称为证据)影响。一般来说会有许多互相矛盾的
假说,任务是要确认哪一个假说可能性最高。
3)表示证据。证据对应新的数据,也就是还没用来计算先验概率的数据。
4),先验概率,是观察到数据 (目前证据)之前,假说 的机率。
5) ,后验概率,是在给定证据 之后,假说 的机率,是希望求得的资讯,也就是在有目前证据时,假说 的机率。
6) 是假定 成立时,观察到 的机率。在 不变时,这是 的函数,也是似然函数,指出在给定假设下假说和证据的相容程度。似然函数是证据 的函数,而后验概率是假说 的函数。
7) 有时会称为边缘似然率。此系数对所有可能的假说都是定值,因此在判断不同假说的相对机率时,不会用到这个系数中。
针对不同的 数值,只有 和 (都在分子)会影响 的数值。假说的后验概率和其先验概率(固有似然率)和新产生的似然率(假说和新得到证据的相容性)乘积成正比。
贝叶斯定理也可以写成下式:
其中系数可以解释成 对 机率的影响。
贝叶斯估计最关键的点是可以利用贝斯定理结合新的证据及以前的先验机率,来得到新的机率(这和频率论推论相反,频率论推论只考虑证据,不考虑先验机率)。
而且贝叶斯估计可以迭代使用:在观察一些证据后得到的后设机率可以当作新的先验机率,再根据新的证据得到新的后设机率。因此贝斯定理可以应用在许多不同的证据上,不论这些证据是一起出现或是不同时出现都可以,这个程序称为贝叶斯更新(Bayesian updating)。
1) 是数据点,可能是一个有许多数值形成的向量。
2) 是数据点分布的参数,也就是说 。这也有可能是参数形成的向量。
3) 是参数的超参数,也就是说 。这也有可能是超参数形成的向量。
4) ,由观测到的 个数据点组成的一组数据,
5) ,需预测分布的新数据点。
1)先验分布是在观测资料前的参数分布 ;
2)先验分布可能不容易确认,此时可以用杰佛里斯事前分配在更新较新的观测值时,先获得后验分布;
3)取样分布是以观测资料的条件,其参数的分布 ,这也称为似然函数,尤其是视为是参数的函数时,有时会写成 ;
4)边缘似然率(有时也称为证据)是观测资料在参数上的边缘分布 ;
5)后验分布是考虑观测资料后的参数分布。可以由贝叶斯法则确认,也是贝叶斯推断的核心:
若用文字表示,即为“后验和先验及似然率的乘积成正比”,有时也会写成“后验 = 先验 × 似然率,在有证据的情形下。
贝叶斯是指托马斯·贝叶斯(1702–1761),他证明了一个特例(现在知道是贝叶斯定理的特例),不过皮埃尔-西蒙·拉普拉斯(1749–1827)推导了此定理的一般版本,应用在天体力学、医疗统计学、可靠度及法学上。早期的贝叶斯推断是用拉普拉斯不充分理由原则所得的均匀先验,称为逆向机率(因为是由观测值倒推参数的归纳推理,或是从结果倒推到原因)。在1920年代以后,逆向机率很大程度的被另一群称为频率论统计的方式取代。
二十世纪时,拉普拉斯的概念往下分支为二派,开始出现主观贝叶斯方法及客观贝叶斯方法。客观贝叶斯方法(或是不提供信息的贝叶斯方法)中,统计分析只依照假设的模型、分析的资料以及给定先验分布的方式(不同的客观贝叶斯方法会有不同给定先验分布的方式)。主观贝叶斯方法(或是提供信息的贝叶斯方法)中,先验的规格依信念(也是分析希望要呈现的主张)而定,信念可以由专家整理资讯后总结产生,也可以根据以往的研究等。
1980年代发现了马尔科夫蒙特卡洛方法,让贝叶斯方法的研究及应用有大幅的发展,除去了许多运算上的问题,也有越来越多人愿意参与非标准的复杂问题。不过虽然贝叶斯方法的研究仍在成长,大部分大学本科的教学仍是以频率论统计为基础。不过贝叶斯方法也广为许多领域接受及应用,例如在机器学习的领域中。
贝叶斯估计有在人工智能及专家系统上应用广泛。自1950年代后期开始,贝叶斯估计技巧就是电脑模式识别技术中的基础。现在也越来越多将贝叶斯估计和以模拟为基础的蒙地卡罗方法合并使用的应用,因为一些模杂的模型无法用贝叶斯分析得到解析解,因图模式结构可以配合一些快速的模拟方式(例如吉布斯抽样或是其他Metropolis–Hastings算法)。因为上述理由,贝叶斯推断在系统发生学研究社群中来越受到重视,许多的应用可以用同时估测许多人口和进化参数。
例.一个医疗诊断问题有两个可选的假设:病人有癌症、病人无癌症可用数据来自化验结果:正+和负-。有先验知识:在所有人口中,患病率是0.008,对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97% 。总结如下:
P(cancer)=0.008,P(nocancer)=0.992, P(+|cancer)=0.98,
P(-|cancer)=0.02,P(+|noncancer)=0.03,P(-|noncancer)=0.97。
问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率P(cancer|+)和P(noncancer|+)。
因此极大后验假设计算如下:
P(+|cancer)P(cancer)=0.0078,P(+|noncancer)P(noncancer)=0.0298。
确切的后验概率可将上面的结果归一化以使它们的和为1:
P(canner|+)=0.0078/(0.0078+0.0298)=0.21,P(noncancer|+)=0.79。
贝叶斯估计的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。