论文摘要
随机最优控制是现代控制理论中的重要问题。这类问题总是要求控制者在容许控制集合中最小化/最大化某个指标泛函来满足一个状态方程(随机控制系统)。取得最小值/最大值的容许控制称为最优控制,相应的状态变量和指标泛函分别称为最优轨线和值函数。众所周知,庞特里亚金(Pontryagin)的最大值原理和贝尔曼(Bellman)的动态规划原理是解决随机最优控制问题的两种主要的和最通常使用的方法。在最大值原理的表述中,给出了最优控制满足的必要条件;这一条件总是由某个哈密顿(Hamilton)函数来给出,称为最大值条件。哈密顿函数是针对系统状态变量和某些对偶变量来定义的。对偶变量满足的方程称为对偶方程,是一个或两个巴赫杜-彭(Pardoux-Peng)型的倒向随机微分方程(BSDE)。包含对偶方程、状态方程和最大值条件的系统称作广义哈密顿系统。另一方面,动态规划原理的基本思想是考虑一族不同初始时刻和初始状态的随机最优控制问题,去建立这族问题与称作哈密顿-雅各比-贝尔曼(Hamilton-Jacobi-Belman,HJB)方程的二阶偏微分方程(PDE)之间的联系。如果HJB方程可解,则我们可以通过最大化/最小化HJB方程中的广义哈密顿函数来得到最优控制,这一结果称为随机验证定理(SVT)。这两种方法已经各自独立地取得了发展;最近的文献中存在一些关于这两种方法之间关系的研究。这篇论文旨在发展和完善随机最优控制理论,特别是带泊松(Poisson)跳跃的正倒向问题。在这类问题中,带泊松跳跃的随机微分方程(SDEP)、倒向随机微分方程(BSDEP)和正倒向随机微分方程(FBSDEP)经常出现。这类方程的解不连续,原因是这些方程中的随机干扰来自于布朗(Brown)运动和泊松随机测度。泊松随机测度是与某个跳过程联系的计数测度。具体地说,泊松随机测度度量某个不连续过程在某段时间内、跳的幅度包含于某个可测集的跳的次数。也就是说,泊松随机测度包含了某个不连续(跳)过程的所有信息:它告诉我们什么时刻跳以及跳的幅度有多大。带泊松跳跃的正倒向随机最优控制理论在工程和金融市场中有很广泛的实际应用前景。在第二章中,我们研究跳扩散过程随机最优控制问题的最大值原理与动态规划原理之间的关系,这里系统的状态过程用SDEP来描述。首先,在温和的假设条件下,我们给出了值函数的某些基本性质并且证明了动态规划原理在跳扩散框架下仍然成立。然后我们给出了相应的广义HJB方程,它现在是一个包含广义哈密顿函数的二阶偏积分-微分方程(PIDE)。其次,在假设值函数光滑(连续可微)的条件下,我们建立了最大值原理与动态规划原理之间的关系。再次,不假设值函数光滑,利用粘性解理论,我们同样得到了最大值原理与动态规划原理之间的关系。最后,首先假设值函数光滑,我们得到了一个随机验证定理,通过它我们可以最大化广义哈密顿函数来得到最优控制。在粘性解的框架下,我们还证明了不包含值函数的任何导数的随机验证定理的另一版本。非线性BSDE首先由Pardoux和Peng[74]引入。Duffie和Epstein[35]独立地从经济背景下同样引入了BSDE。在[35]中,他们给出了递归效用的一种随机微分表述。递归效用是标准的可加效用的推广,其当前效用不仅依赖于当前消费率而且依赖于未来的效用。El Karoui,Peng和Quenez[37]发现,递归效用过程可以用一个BSDE的解来表示。从BSDE观点,[37]还给出了递归效用的另外表述和性质。从而,随机最优控制问题,如果其指标泛函由某个BSDE的解来描述,则构成了随机递归最优控制问题。在第三章中,我们考虑一类带泊松跳跃的随机递归最优控制问题,其指标泛函由某个BSDEP的解来描述。对这一问题,应用Peng[79]中的随机后向半群的概念,Li和Peng[59]最近得到了相应的动态规划原理,并且证明了值函数是某个广义HJB方程的粘性解。我们则研究这一随机递归最优控制问题的最大值原理与动态规划原理之间的关系。为此,我们首先证明了一类带泊松跳跃的正倒向随机控制系统的局部最大值原理。并且,我们证明了加上某些凸/凹性假设条件,上述最大值原理也是充分的。我们还讨论了这一结果在金融市场中一类均值-方差投资组合选择混合一个递归效用泛函的优化问题中的应用。然后,假设值函数光滑,我们得到了相应的随机最大值原理与动态规划原理之间的关系。作为应用,我们讨论了金融市场中一类线性二次(LQ)递归投资组合优化问题。在这一例子中,利用最大值原理和动态规划原理都得到了同样的最优控制,二者的关系也得到了验证。LQ随机最优控制问题是随机最优控制问题中最重要的例子,特别是由于其优良的结构和在工程设计中的广泛应用。在第四章中,我们研究一类带泊松跳跃的耦合正倒向LQ随机最优控制问题,在金融市场中当考虑“大户投资者”时会碰到这类最优控制问题。我们证明了存在惟一的最优控制并给出了其状态反馈形式。当所有系数是确定性的时候,利用一类广义矩阵值黎卡提(Riccati)方程系统的解,我们得到了最优控制的线性状态反馈调节器。我们还讨论了这类黎卡提方程的可解性。系数受连续时间马尔科夫(Markov)链调节的随机微分方程(SDE)来自于金融市场中为反映更现实的随机市场环境而出现的体制转换模型。在体制转换模型中,市场参数依赖于在有限个状态之间转换的市场模式。不同的市场模式可以反映潜在的市场状态、投资者的心情以及其他经济因素。最近,博士论文[97]中引入了带马尔科夫链的BSDE,其生成元受随机干扰并且用一个连续时间马尔科夫链来描述。受一个带马尔科夫链调节的带泊松跳跃的LQ随机最优控制问题的驱使,在第五章中,我们推广[97]中的部分结果至不连续情形。也就是说,我们考虑带马尔科夫链的BSDEP。在假设生成元满足全局李普希兹(Lipschitz)条件下,利用某些推广的鞅表示定理,我们得到了其解的存在惟一性结果。我们还讨论了解过程的性质,得到了一维情形下的比较定理。这篇论文的另一个目的是研究部分可观测的完全耦合正倒向随机最优控制问题。部分可观测的最优控制问题的最重要的特征之一是其有更实际的背景。具体地说,实际上控制者不能完全观测到系统状态,在大多数情况下只能观测到与系统状态相关的某个噪声过程。最近,很多研究兴趣已经被吸引到完全耦合的正倒向随机控制系统上来。一个原因是理论本身是有趣的并富有挑战性。另一方面,在金融市场中,当考虑“大户投资者”的投资组合优化问题时会碰到这类控制系统。这时的状态过程用完全耦合的正倒向随机微分方程(FBSDE)来描述。在第六章中,假设控制域可能非凸,利用针状变分、对偶和滤波技术,我们得到了一类部分可观测的完全耦合正倒向随机控制系统的最大值原理。为了解释理论结果,我们给了一个例子讨论部分可观测的完全耦合LQ正倒向随机最优控制问题。结合经典的滤波技术和求解线性FBSDE的技术,我们得到了可观测的最优控制。同时,我们还得到了最优轨线的滤波估计,它们由双倍维数的正倒向常微分方程(DFBODE)和若干黎卡提方程的解来给出。最后,结合前面的技术和艾克兰(Ekeland)变分原理,我们还讨论了带状态约束的问题。论文共分六章,以下是本文结构和得到的主要结论。第一章:介绍从第二章到第六章我们研究的问题。第二章:建立跳扩散过程随机最优控制问题的最大值原理与动态规划原理之间的关系。我们考虑下面的随机控制系统和指标泛函跳扩散过程的随机最优控制问题叙述如下。问题(JD)s,y。对给定(s,y)∈[0,T)×Rn,在U[s,T]中最小化(2.2),满足(2.1)。我们的主要结果是下面的针对光滑值函数情形的定理2.4和针对非光滑值函数情形的定理2.8。定理2.4.(关系,光滑情形)假设(H2.1)~(H2.3)成立,(s,y)∈[0, T)×Rn,给定。设(?)是问题(JD)s,y的最优对,(?)是一阶对偶方程(2.19)的解。假设(?),则其中G由(2,16)定义。进一步地,如果(?)以及Vtx也连续,则定理2.8. (关系,非光滑情形)假设(H2.1)~(H2.3)成立,(?)给定。设(?)满足(2.8)和(2.9)是广义HJB方程(2.15)的粘性解,(?)是问题(JD)s,y的最优对,(?)和(?)分别是一阶和二阶对偶方程(2.19),(2.20)的解。则其中G由(2.54)定义。下面的两个结果分别给出了光滑和不光滑值函数情形下的随机验证定理。定理2.9.(随机验证定理,光滑情形)假设(H2.1)~(H2.3)成立,(?)是广义HJB方程(2.15)的解,则进一步地,如果容许对(?)满足其中G由(2.16)定义,则(?)是最优对。定理2.10. (随机验证定理,非光滑情形)假设(H2.1),(H2.2)成立。设(?)满足(2.8)和(2.9)是广义HJB方程(2.15)的粘性解,则(i)(2.73)成立;(ii)设(?)给定,(?)是容许对。假设存在(?),使得以及其中(?),满足(?),则(?)是最优对。第三章:建立带泊松跳跃的随机递归最优控制问题的最大值原理与动态规划原理之间的关系。作为准备工作,我们首先考虑下面的正倒向随机控制系统和指标泛函正倒向随机最优控制问题叙述如下。问题(FB)0,T。对给定(?),在Uad中最小化(3.2),满足(3.1)。应用经典的凸变分方法,我们首先得到了下面的局部最大值原理。定理3.1.(局部随机最大值原理)假设(H2.1),(H2.3)’,(H3.1)和(H3.2)成立。设u(·)是问题(FB)0,T的最优控制,(?)是相应的最优轨线,则其中哈密顿函数H由(3,7)定义。进一步地,在某些附加的凸/凹性假设下,上面定理3.1中的必要条件也是充分的。定理3.2.(最优控制的充分性条件)假设(H2.1),(H2.3)’,(H3.1)~(H3.3)成立。设u(··)是容许控制,(?)是相应的轨线,满足(?)是对偶方程(3.6)的解。假设H关于(?)凸,则u(·)是问题(FB)0,T满足(3.8)的最优控制。在上述工作的基础上,我们研究带泊松跳跃的随机递归最优控制问题的最大值原理与动态规划原理之间的关系。我们考虑下面的随机控制系统和指标泛函随机递归最优控制问题叙述如下。问题(R)s,y.对给定(?),在U[s,T]中最小化(3.31),满足(3.35)。主要结果是下面的定理。定理3.6.(关系,递归问题,光滑情形)假设(H2.1),(H2.3)’,(H3.1),(H3.2)成立,(?)给定。设U(·)是问题(R)s,y的最优控制,(?)是相应的最优轨线,(?)是对偶方程(3.36)的解。假设值函数(?),则进一步地,如果(?)并且Vtx也连续,则第四章:研究一类带泊松跳跃的耦合正倒向LQ随机最优控制问题。我们考虑下面的随机控制系统和指标泛函LQ随机最优控制问题叙述如下。问题(LQ)0,T。对给定(?),在Uad中最小化(4.6),满足(4.5)。我们证明了存在惟一的最优控制,并给出其显式的线性状态反馈形式。定理4.1.问题(LQ)0,T存在惟一的最优控制其中(?)是相应的最优轨线。当所有的系数矩阵是确定性的时候,利用一类广义矩阵值黎卡提方程系统的解,我们可以给出最优控制的线性状态反馈调节器。定理4.2.假设t∈[0,T],存在矩阵(K(t),M(t),Y(t,·))满足广义矩阵值黎卡提方程系统(4.9),则问题(LQ)0,T的最优线性状态反馈调节器为最优值函数为我们讨论了这类广义矩阵值黎卡提方程系统的可解性问题。在某些特殊情形下,我们得到了下面的存在惟一性结果。定理4.5.假设(H4.3)成立,D≡0,则广义矩阵值黎卡提方程系统(4.9)存在惟一解(?)。第五章:研究带泊松跳跃和马尔科夫链的BSDE。首先,作为研究动机,我们讨论一类带泊松跳跃和马尔科夫链的LQ随机最优控制问题。我们考虑下面的随机控制系统和指标泛函其中(?)是一个连续时间马尔科夫链,状态空间为(?)。α的转移概率为其中qij≥0,对(?)。带马尔科夫链的LQ随机最优控制问题叙述如下。问题(LQMC)0,T。对给定(?),在Uad中最小化(5.2),满足(5.1)。通过一个约束随机黎卡提方程的解,我们得到了最优状态反馈控制和最优值函数。定理5.1.如果约束随机黎卡提方程(5.4)的解(?)的解存在,则问题(LQMC)0,T是适定的,最优状态反馈控制为(省略某些时间变量t)进一步地,最优值函数为我们研究下面带泊松跳跃和马尔科夫链的BSDE:在生成元满足全局李普希兹条件的假设下,利用一些推广的鞅表示定理,我们得到了其解的存在惟一性结果。定理5.2.(存在惟一性)假设(H5.1)成立,则BSDEP (5.8)存在惟一解(?)。我们还讨论了解的若干性质,在一维情形下证明了比较定理。为此,设(?)是另一个马尔科夫链,状态空间(?)。β的转移概率为其中qjk≥0,对(?)。定理5.4. (比较定理)假设(?)满足(H5.2)。设过程(?)可测,满足(?)。令对(?)。设(?),f’定义为对(?),其中(?)满足(H5.2)。我们用(Y,Z,K(·))(相应地,(Y’,Z’,K’(·)))记BSDEP (5.8)对应于参数(ξ,f)(相应地,(ξ’,f’))的解。如果(iv)ξ≥ξ’,a.s.;(v)对马尔科夫链α,β,成立(?),a.s.;(vi)(?)关于i∈Μ单调不减,并且(?),a.s.,a.e.,(?),则我们有如果,进一步地,我们假设P(ξ>ξ’)>0,则(?)。特别地,Y(0)>Y’(0)。第六章:研究一类部分可观测的完全耦合正倒向随机最优控制问题。我们考虑下面的随机控制系统带有观测方程和指标泛函部分可观测的随机最优控制问题叙述如下。问题(PO)0,T.对给定(?),在Uad中最小化(6.7),满足(6.4)和(6.5)。我们的主要结果是下面的定理。定理6.1.(部分可观测的随机最大值原理)假设(H6.1)~(H6.3)成立。设u(·)是问题(PO)0,T部分可观测的最优控制,(?)是相应的最优轨线,Z(·)是相应的(6.6)的解。设(P(·),Q(··))是附属BSDE(6.34)的解,(p(··),q(·),k(·))是对偶FBSDE(6.35)的解,则其中哈密顿函数H由(6.36)定义。为了解释理论结果,我们给出了一个部分可观测的完全耦合LQ正倒向随机最优控制问题。我们考虑下面的随机控制系统和观测方程指标泛函为部分可观测的LQ随机最优控制问题叙述如下。问题(POLQ)0,T.对给定(?),在Uad中最小化(6.40),满足(6.38)和(6.39).结合经典的线性滤波理论和求解线性FBSDE的技术,我们得到了显式的满足必要条件的可观测最优控制。同时,我们得到了最优轨线的滤波估计,它们由一个双倍维数的正倒向常微分方程(DFBODE)和若干黎卡提方程的解给出。定理6.2.(LQ情形,可观测最优控制及最优轨线的滤波估计)对问题(POLQ)0,T,可观测的最优控制u(·)由(6.47)给出,其中(?)是DFBODE (6.53)的解,(?)由(6.51)给出,Π(·)是黎卡提方程(6.44)的解。并且,最优轨线的滤波估计(?)分别由DFBODE(6.53)和(6.57)的解给出,其中∑(·)是黎卡提方程(6.55)的解。最后,我们讨论带状态约束的问题。我们考虑如下的状态约束。带状态约束的部分可观测随机最优控制问题叙述如下。问题(POC)0,T.对给定(?),在Uad中最小化(6.7),满足(6.4),(6.5)以及状态约束(6.57)。主要结果是下面的定理。定理6.3.(状态约束下部分可观测的随机最大值原理)假设(H6.1)~(H6.4)成立。设u(·)是问题(POC)0,T部分可观测的最优控制,(?)是最优轨线,Z(·)是相应的(6.6)的解。则存在非零三元组(?),满足(?),以及(?)分别是附属BSDE(6.60)和对偶FBSDE(6.61)的解,使得最大值条件成立,其中哈密顿函数H由(6.59)定义。
论文目录
相关论文文献
- [1].一类含消费、寿险和投资的随机最优控制问题[J]. 中国科学:数学 2016(12)
- [2].拟哈密顿系统非线性随机最优控制[J]. 力学进展 2013(01)
- [3].不确定拟哈密顿系统的随机最优控制[J]. 动力学与控制学报 2017(01)
- [4].一类广告的随机最优控制模型的奇摄动解[J]. 杭州电子科技大学学报(自然科学版) 2017(02)
- [5].一类随机最优控制问题的单调控制解[J]. 应用数学学报 2008(01)
- [6].随机最优控制的二阶必要条件综述[J]. 系统科学与数学 2019(02)
- [7].网络化控制系统的随机最优控制[J]. 清华大学学报(自然科学版) 2008(S2)
- [8].重度混合动力汽车油耗和排放的多目标随机最优控制策略[J]. 汽车工程 2014(08)
- [9].基于广义密度演化方程的结构随机最优控制[J]. 计算力学学报 2010(06)
- [10].地震激励下20层钢结构基准模型的非线性随机最优控制[J]. 振动工程学报 2013(01)
- [11].不确定结构非线性随机最优控制的鲁棒性[J]. 浙江大学学报(工学版) 2008(07)
- [12].公路桥梁车辆耦合系统随机最优控制研究[J]. 应用力学学报 2012(03)
- [13].一类新的线性二次随机最优控制器的设计[J]. 纯粹数学与应用数学 2008(02)
- [14].非线性随机动力系统的最优多项式控制[J]. 振动工程学报 2010(04)
- [15].基于随机平均的非线性随机最优控制[J]. 噪声与振动控制 2008(01)
- [16].基于Lagrange方法的资产与负债的管理问题[J]. 佳木斯大学学报(自然科学版) 2009(05)
- [17].一类随机Riccati矩阵微分方程的解的存在性[J]. 科技信息(科学教研) 2008(23)
- [18].山东省自然科学奖一等奖[J]. 中国科技奖励 2019(05)
- [19].一种基于随机最优控制的中制导律[J]. 导弹与航天运载技术 2018(05)
- [20].球对称压电壳的随机最优控制[J]. 噪声与振动控制 2012(01)
- [21].基于非线性随机最优控制的大跨度斜拉桥地震响应Benchmark问题研究[J]. 振动与冲击 2016(08)
- [22].基于斜舵船舶减横摇LQG控制研究[J]. 系统仿真学报 2009(02)
- [23].超前BSDE中Z的性质及其在时滞随机控制中的应用[J]. 山东大学学报(理学版) 2010(04)
- [24].基于斜舵船舶减纵摇LQG控制[J]. 哈尔滨工业大学学报 2008(09)
- [25].四阶动力学建模和随机最优控制的UAV目标跟踪[J]. 计算机工程与应用 2017(12)
- [26].风险敏感性控制在CEV模型的应用研究[J]. 数学的实践与认识 2010(07)
- [27].结构地震反应随机最优控制的多目标概率准则研究[J]. 振动与冲击 2011(11)
- [28].金融数学的最新理论和现代发展[J]. 大众商务 2010(04)
- [29].一类不带线性结构的随机最优控制问题的最大值原理(英文)[J]. 应用数学 2017(02)
- [30].跳扩散分数布朗运动的随机最大值原理[J]. 宝鸡文理学院学报(自然科学版) 2015(04)
标签:随机最优控制论文; 泊松跳跃论文; 最大值原理论文; 动态规划原理论文; 偏积分微分方程论文; 粘性解论文; 倒向随机微分方程论文; 正倒向随机微分方程论文; 线性二次控制论文; 马尔科夫链论文; 部分可观测控制论文; 滤波论文;