扩展Markov决策过程的性能灵敏度分析与优化

论文摘要

随着科学技术的发展，在通讯网络(Internet及无线网络)，柔性制造，智能机器人，交通管理等领域，出现了大量的复杂随机动态系统。目前，该类系统的性能优化问题是众多领域的研究热点。这些领域包括控制系统领域，运筹学领域，计算机科学领域以及人工智能领域等等。不同领域出现了解决该问题的不同方法，如控制系统领域的离散事件动态系统的摄动分析方法，运筹学领域的Markov决策过程理论，计算机科学和人工智能领域的强化学习(或神经元动态规划)方法。虽然这些方法对系统结构有着不同的描述，但这些方法都是围绕着同一个目的展开，即寻找一个“最好的策略”来优化系统的性能。近几年来，一种基于灵敏度观点的优化方法将以上不同领域的不同方法有机的统一起来。该方法以性能势理论为基础，通过两种性能灵敏度公式：性能差公式和性能导数公式，将摄动分析方法，Markov决策过程理论以及强化学习方法统一在同一框架下。该方法不仅可以基于模型采用理论计算的方法来寻找系统的最优策略，而且可以在系统模型参数未知的情况下基于一条样本轨道在线地改进系统性能。因而在某种程度上它解决了该类系统的“维数灾”和“模型灾”问题。目前为止，该方法的主要研究对象为Markov型系统，对非Markov型系统则研究较少。本文在该方法的基础上，主要研究了半Markov决策过程和部分可观Markov决策过程的灵敏度分析和优化问题。半Markov决策过程和部分可观Markov决策过程是Markov决策过程两种不同形式的推广。半Markov决策过程在每个状态的逗留时间是服从一般分布而非指数分布。部分可观Markov决策过程的状态不能直接观测，但能以概率观测到与状态相关的观测信息。这些特点使得对实际系统的描述更加合理，从而基于该两类过程所得到的理论和算法可以更好地应用于很多实际系统的优化。对半Markov决策过程，通过利用等价Markov决策过程的方法，在平均性能准则和折扣性能准则下，分别引入了两个无穷小矩阵，由此定义了半Markov决策过程的性能势，并导出了半Markov决策过程在平均性能准则和折扣性能准则下的性能差公式和性能导数公式。在此基础上，给出了半Markov决策过程的最优性方程，建立了半Markov决策过程性能梯度的计算和估计方法以及基于势能的策略迭代算法。对离散时间部分可观Markov决策过程，首先对基于观测的策略下的部分可观Markov决策过程，建立了性能差和性能导数公式。这两种灵敏度公式在一定条件下仅依赖于系统的观测和行动，因而更有利于性能梯度的估计和在线策略迭代的设计。该结果也是Markov决策过程基于事件优化方法在部分可观Markov决策过程的推广。在灵敏度公式的基础上，我们给出了性能梯度的两种估计算法和在线的策略迭代算法。随后，借助于策略的有限状态控制机描述，我们建立了带有有限内部状态的离散时间部分可观Markov决策过程的灵敏度公式。借助于该灵敏度公式，给出了性能梯

论文目录

摘要

Abstract

第一章绪论

1.1 性能优化问题的研究方法

1.2 基于灵敏度观点的优化

1.3 半Markov决策过程的研究现状

1.4 部分可观Markov决策过程的研究现状

1.5 本文的研究目的

1.6 本文的内容

1.7 本文的主要贡献

第二章 Markov决策过程基于灵敏度的性能优化

2.1 Markov决策过程（MDPs）

2.1.1 离散时间和连续时间MDPs

2.1.2 决策时刻、历史与策略

2.1.3 转移概率矩阵、无穷小矩阵和优化准则

2.1.4 MDPs的研究现状

2.2 Markov过程的灵敏度分析

2.2.1 实现因子和性能势

2.2.2 性能势的估计

2.2.3 性能差与性能导数公式

2.2.4 MDPs的最优性方程

2.3 性能梯度与基于梯度的优化

2.3.1 梯度的估计

2.3.2 基于梯度的优化算法

2.4 策略迭代算法

2.4.1 基于理论值的策略迭代

2.4.2 基于样本轨道的策略迭代

2.5 MDPs基于事件的优化

第三章半Markov决策过程与性能灵敏度分析

3.1 Markov更新过程、半Markov过程及其决策过程

3.1.1 Markov更新过程

3.1.2 半Markov过程

3.1.3 半Markov决策过程

3.2 平均准则下的灵敏度分析和优化

3.2.1 基于离散时间Markov过程的灵敏度分析和优化

3.2.2 基于连续时间Markov过程的灵敏度分析和优化

3.3 折扣准则下的灵敏度分析和优化

3.3.1 连续时间Markov过程在折扣准则下的灵敏度分析与优化

3.3.2 半Markov决策过程在折扣准则下的灵敏度分析和优化

第四章离散时间POMDP与性能灵敏度分析

4.1 POMDP的定义及其应用

4.2 基于观测的策略下的POMDP的灵敏度分析和优化

4.2.1 基于观测的策略下的POMDP的灵敏度分析

4.2.2 性能灵敏度公式的直观理解

4.2.3 POMDP关于基于观测的策略的梯度估计

4.2.4 基于观测的策略的策略迭代算法

4.3 POMDP基于内部状态的灵敏度分析和优化

4.3.1 有限状态控制机

4.3.2 POMDP基于内部状态的灵敏度分析

4.3.3 策略梯度计算与估计

4.3.4 策略迭代算法

第五章连续时间POMDP的策略梯度估计

5.1 连续时间部分可观Markov决策过程

5.2 连续时间部分可观Markov决策过程的梯度

5.3 连续时间部分可观Markov决策过程的策略梯度估计

第六章随机切换过程

6.1 随机切换过程的引入

6.2 随机切换的连续时间Markov过程

6.3 随机平稳策略下的连续时间MDPs

6.4 小结

第七章总结与展望

7.1 总结

7.2 展望

参考文献

致谢

攻读博士学位期间的研究成果

扩展Markov决策过程的性能灵敏度分析与优化

论文摘要

论文目录

相关论文文献

猜你喜欢