更新时间:2023-01-05 01:48
研究两个或多个决策人的控制作用同时施加于一个由微分方程描述的运动系统时实现各自最优目标的对策过程的理论。微分对策的最优策略所应满足的必要条件,可象最优控制理论中的极大值原理那样导出。微分对策实质上是一种双(多)方的最优控制问题,而通常的最优控制问题可看成是单人微分对策。微分对策还可推广到由差分方程描述的离散时间动态系统,因而常常更广义地称为动态对策。
微分对策(Differential Game)的研究始于20世纪40年代。R.艾萨克斯在1965年对完全对抗的二人零和对策问题的研究,奠定了微分对策理论的基础。微分对策已应用于军事、公安、工业控制、航天航空、环境保护、海洋捕捞、经济管理和市场竞争等方面。微分对策所提供的数学模型还可能应用于更多的方面
例如,在微分对策中,应用突变论的概念可导致对不连续性和奇异性进行分类研究。此外,还可探讨当约束条件、控制策略或合作关系处于模糊情况时(见模糊控制)的微分对策问题。在对策问题中,决策人都以对方的行为模型作为自己决策的依据,因此微分对策的研究与心理学、人工智能、行为科学等学科都有密切的关系。
自 20 世纪 50 年代初以来,由于制导系统拦截飞行器的引入、 人造卫星的发射和航天中有关机动追击问题的需要,美国著名的 Rand 公司在空军资助下,以美国数学家 Issacs 博士为首的组织开展了对抗双方都能自由决策行动的理论追逃问题研究。他们把现代控制理论中的一些概念、 原理与方法引入对策论中,取得了突破性的成果, 撰写了 4 篇研究报告,形成了微分对策的最初研究成果。
1965 年,Issacs整理出版了《微分对策》一书,这是世界上第一部微分对策的专著。该书的出版标志着微分对策理论的诞生。此后,由于军事方面的原因,微分对策的研究引起了世界各国的普遍关注,特别是美国和前苏联,美苏出于军备竞赛的需要,对空战、 核导弹与人造卫星拦截、 电子战等方面提出了各种类型的微分对策模型,使得军事微分对策得以迅速发展。1971 年,美国科学家 Friedman 采用了两个近似离散对策序列精确定义了微分对策,建立了微分对策值与鞍点存在性理论,从而奠定了微分对策理论的数学基础。自《微分对策》出版以来,微分对策理论与应用有了很大发展。除了定量微分对策和定性微分对策不断完善外,随机微分对策、 多人合作微分对策、 非合作微分对策和主从微分对策等方面的研究也取得了很大进展。除了 Issacs,Nash,Friedman外,Krasovskii,Leitmannt 和Petrosjan等均对微分对策理论的发展作出了杰出的贡献。
美国著名数学家Nash 最先将微分对策理论引入经济学研究领域,并由于他的出色工作而获得了诺贝尔经济学奖。近年来,经济学领域中对微分对策的研究十分活跃。周边经济和微经济等方面的许多课题都可用微分对策的理论来研究。
我国对微分对策的研究起步较晚,研究人员也不多,以张嗣瀛院士为代表的研究群体用现代控制理论的思想和方法对微分对策作过系统的研究,提出了双边控制的“定量极值原理”和“定性极值原理”。
构成各类微分对策的要素可归结为:
①参与对策的各方(决策人)具有不同的利益。
②决策人根据自己拥有的信息作决策。
③按照对策规则,决策人的地位可能不同。
④对策的结局由诸决策人的控制作用共同决定。对应这些要素的不同情况,可将微分对策作各种形式的分类。按照对策人的数目分类,如n人微分对策,n可取为2、3、…。按照结局分类,如结局的得失在连续范围内变化的问题称定量(程度)微分对策,结局取“赢”或“输”二者居一的问题称定性(种类)微分对策。也可按照决策人利益的性质分类,如决策人的利益为对抗时称零和微分对策(即各方得失总和为零),决策人有竞争又有合作时称非零和微分对策(如上下级之间,共同垄断同一市场的几个公司之间)。
按照决策人间合作程度,又有组队最优、纳什平衡、帕雷托最优和协商策略等多种形式。在上下级多人决策问题中,通常要求上级决策人先宣布自己的策略,下级按照自身利益作出响应。这种策略如能使下级的行动符合上级的目标,这类微分对策便称为上下级对策(斯塔克尔贝格对策)或激励对策。此外,依对策问题中动态系统类型,还有偏微分对策(动态系统用偏微分方程描述)和随机微分对策(存在随机的干扰或观测误差的微分对策)。在微分对策中,决策人拥有信息的多寡,对决策的自由度和结局的优劣有明显的影响。定量地分析这些影响,并对用于信息采集和传输(或破坏对方的采集与传输)的费用与可能取得的收益进行权衡的问题,称为信息分配和信息结构问题。
二人零和微分对策
这是研究最多和应用较广的一种微分对策,其动态过程可用以下状态方程(见状态空间法)描述: 式中各个变量的含义可用追躲问题为例来说明。状态变量 x及其导数凧 表示追方和躲方间的相对位置和相对速度等;u为追方的控制作用,v为躲方的控制作用,它们共同决定x的变化;t表示时间。再用性能指标 描写追击的总效果,它可能是脱靶量、命中时间等。式中T是对策终止时间,它由反映结局(例如击中)的条件Ψ[x(T)]=0来确定。二人零和微分对策问题的求解,按提法的不同有两种情况。
①在定量微分对策的提法中,追方选择u使J尽量小,而躲方选择v使J尽量大,因此问题的解u*、v*应满足
J(u*,v)≤J(u*,v*)≤J(u,v*)
这样的(u*,v*)称为鞍点策略。在一定条件下,最优控制理论中的极大值原理可推广应用于这类问题。这种“双方极值原理”指出了鞍点策略应满足的必要条件: 式中u*(t),v*(t)对于一切t∈[t0,T]均满足以上条件,分别表示对v取极大值与对u取极小值,而哈密顿函数规定为 其中λi(t)为协态变量,它满足伴随方程和边界条件,这里μ 为正值常数乘子。各式中的x(t)是与鞍点策略(u*,v*)相对应的最优轨线。在应用双方极值原理来解决具体的微分对策问题时,除了最优控制理论中所遇到的共同性难点(如解两点边值问题)以外,还会由于min和max运算而引入许多间断性、奇异曲面等问题。奇异曲面的研究非常重要,它关系到问题的求解是否完整。在微分对策中可以出现一些具有新性质的奇异曲面,它们比单方最优控制问题中的奇异曲面要复杂得多。对于奇异曲面,尚未建立起系统的理论和计算方法。
②在定性微分对策的提法中,只考虑某种结局能否实现的问题(如击中或捕获),可用x(t)能否达到目标集Ψ(x)≤0来描述。追方选择u(t)力图实现此目标,而躲方选择v(t)力图避免此目标。若双方控制能力具有一定均势,则x处于某一区域内时可以捕获而在另一区域时能够逃逸。这两个区域称为捕获区和逃逸区,它们的分界面称为界栅(或壁垒)。微分对策为追逃问题提供了在竞争环境中较为深刻实用的数学模型。在空空导弹的设计中,最优控制和微分对策都被应用于制导规律的研究。微分对策对目标加速度估值误差不敏感,比最优控制更适用于设计拦截机动目标地导弹。
微分对策理论起源于军事问题,由于国防和军事目的的需要,军事领域中的微分对策研究一直是微分对策理论发展的动力和热点。特别在当今世界,高科技手段在军事中的广泛应用,使得军事领域中的微分对策问题研究显得尤为重要。
基于安全保密的原因,军事领域中的微分对策研究的最新资料很难在公开发表的文献中找到,但可以想象,该领域中的微分对策研究将与电子信息技术紧密结合,以微分对策的数值算法研究为重点方向。一些较为实用的控制方法,如自适应控制、 学习控制等将在这类微分对策的研究中发挥重要作用。由于科学技术在现代战争中的应用,多目标多任务的协同作战是现代战争的一个重要特征,因此,多人微分对策的研究也将成为军事领域中的微分对策研究的重要课题。
近年来,经济领域中的微分对策研究非常活跃,许多宏观经济中的多边竞争、 合作问题均可用微分对策的理论和方法解决,为决策者提供可靠的决策方案。同时,经济领域中的微分对策的研究也丰富和发展了微分对策理论。
Engwerda、Fershtman 和 Kamien ,Levine 和 Brociner 在微分对策方面的大量研究工作均基于经济领域中的实际问题,他们在应用微分对策的思想和方法解决经济问题方面取得了一系列重要成果,为微分对策基础理论的发展做出了重要贡献。由于现代社会信息技术的发展,经济领域中的合作、 竞争将更加激烈,涉及多个方面,因此,多人微分对策的研究必将成为经济领域中微分对策研究的主要课题。