扩展Markov决策过程的性能灵敏度分析与优化

扩展Markov决策过程的性能灵敏度分析与优化

论文摘要

随着科学技术的发展,在通讯网络(Internet及无线网络),柔性制造,智能机器人,交通管理等领域,出现了大量的复杂随机动态系统。目前,该类系统的性能优化问题是众多领域的研究热点。这些领域包括控制系统领域,运筹学领域,计算机科学领域以及人工智能领域等等。不同领域出现了解决该问题的不同方法,如控制系统领域的离散事件动态系统的摄动分析方法,运筹学领域的Markov决策过程理论,计算机科学和人工智能领域的强化学习(或神经元动态规划)方法。虽然这些方法对系统结构有着不同的描述,但这些方法都是围绕着同一个目的展开,即寻找一个“最好的策略”来优化系统的性能。 近几年来,一种基于灵敏度观点的优化方法将以上不同领域的不同方法有机的统一起来。该方法以性能势理论为基础,通过两种性能灵敏度公式:性能差公式和性能导数公式,将摄动分析方法,Markov决策过程理论以及强化学习方法统一在同一框架下。该方法不仅可以基于模型采用理论计算的方法来寻找系统的最优策略,而且可以在系统模型参数未知的情况下基于一条样本轨道在线地改进系统性能。因而在某种程度上它解决了该类系统的“维数灾”和“模型灾”问题。目前为止,该方法的主要研究对象为Markov型系统,对非Markov型系统则研究较少。本文在该方法的基础上,主要研究了半Markov决策过程和部分可观Markov决策过程的灵敏度分析和优化问题。半Markov决策过程和部分可观Markov决策过程是Markov决策过程两种不同形式的推广。半Markov决策过程在每个状态的逗留时间是服从一般分布而非指数分布。部分可观Markov决策过程的状态不能直接观测,但能以概率观测到与状态相关的观测信息。这些特点使得对实际系统的描述更加合理,从而基于该两类过程所得到的理论和算法可以更好地应用于很多实际系统的优化。 对半Markov决策过程,通过利用等价Markov决策过程的方法,在平均性能准则和折扣性能准则下,分别引入了两个无穷小矩阵,由此定义了半Markov决策过程的性能势,并导出了半Markov决策过程在平均性能准则和折扣性能准则下的性能差公式和性能导数公式。在此基础上,给出了半Markov决策过程的最优性方程,建立了半Markov决策过程性能梯度的计算和估计方法以及基于势能的策略迭代算法。 对离散时间部分可观Markov决策过程,首先对基于观测的策略下的部分可观Markov决策过程,建立了性能差和性能导数公式。这两种灵敏度公式在一定条件下仅依赖于系统的观测和行动,因而更有利于性能梯度的估计和在线策略迭代的设计。该结果也是Markov决策过程基于事件优化方法在部分可观Markov决策过程的推广。在灵敏度公式的基础上,我们给出了性能梯度的两种估计算法和在线的策略迭代算法。随后,借助于策略的有限状态控制机描述,我们建立了带有有限内部状态的离散时间部分可观Markov决策过程的灵敏度公式。借助于该灵敏度公式,给出了性能梯

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 性能优化问题的研究方法
  • 1.2 基于灵敏度观点的优化
  • 1.3 半Markov决策过程的研究现状
  • 1.4 部分可观Markov决策过程的研究现状
  • 1.5 本文的研究目的
  • 1.6 本文的内容
  • 1.7 本文的主要贡献
  • 第二章 Markov决策过程基于灵敏度的性能优化
  • 2.1 Markov决策过程(MDPs)
  • 2.1.1 离散时间和连续时间MDPs
  • 2.1.2 决策时刻、历史与策略
  • 2.1.3 转移概率矩阵、无穷小矩阵和优化准则
  • 2.1.4 MDPs的研究现状
  • 2.2 Markov过程的灵敏度分析
  • 2.2.1 实现因子和性能势
  • 2.2.2 性能势的估计
  • 2.2.3 性能差与性能导数公式
  • 2.2.4 MDPs的最优性方程
  • 2.3 性能梯度与基于梯度的优化
  • 2.3.1 梯度的估计
  • 2.3.2 基于梯度的优化算法
  • 2.4 策略迭代算法
  • 2.4.1 基于理论值的策略迭代
  • 2.4.2 基于样本轨道的策略迭代
  • 2.5 MDPs基于事件的优化
  • 第三章 半Markov决策过程与性能灵敏度分析
  • 3.1 Markov更新过程、半Markov过程及其决策过程
  • 3.1.1 Markov更新过程
  • 3.1.2 半Markov过程
  • 3.1.3 半Markov决策过程
  • 3.2 平均准则下的灵敏度分析和优化
  • 3.2.1 基于离散时间Markov过程的灵敏度分析和优化
  • 3.2.2 基于连续时间Markov过程的灵敏度分析和优化
  • 3.3 折扣准则下的灵敏度分析和优化
  • 3.3.1 连续时间Markov过程在折扣准则下的灵敏度分析与优化
  • 3.3.2 半Markov决策过程在折扣准则下的灵敏度分析和优化
  • 第四章 离散时间POMDP与性能灵敏度分析
  • 4.1 POMDP的定义及其应用
  • 4.2 基于观测的策略下的POMDP的灵敏度分析和优化
  • 4.2.1 基于观测的策略下的POMDP的灵敏度分析
  • 4.2.2 性能灵敏度公式的直观理解
  • 4.2.3 POMDP关于基于观测的策略的梯度估计
  • 4.2.4 基于观测的策略的策略迭代算法
  • 4.3 POMDP基于内部状态的灵敏度分析和优化
  • 4.3.1 有限状态控制机
  • 4.3.2 POMDP基于内部状态的灵敏度分析
  • 4.3.3 策略梯度计算与估计
  • 4.3.4 策略迭代算法
  • 第五章 连续时间POMDP的策略梯度估计
  • 5.1 连续时间部分可观Markov决策过程
  • 5.2 连续时间部分可观Markov决策过程的梯度
  • 5.3 连续时间部分可观Markov决策过程的策略梯度估计
  • 第六章 随机切换过程
  • 6.1 随机切换过程的引入
  • 6.2 随机切换的连续时间Markov过程
  • 6.3 随机平稳策略下的连续时间MDPs
  • 6.4 小结
  • 第七章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 致谢
  • 攻读博士学位期间的研究成果
  • 相关论文文献

    • [1].论基层政府决策过程公开对腐败的防治[J]. 未来与发展 2018(10)
    • [2].对高校政务民主决策过程中办公自动化建设的思考[J]. 对外经贸 2017(09)
    • [3].政策决策过程的社会稳定风险识别研究[J]. 重庆大学学报(社会科学版) 2017(06)
    • [4].领导决策过程中的摩尔模式分析[J]. 内蒙古科技与经济 2020(08)
    • [5].高校党风廉政建设工作决策过程的优化路径[J]. 廉政文化研究 2017(04)
    • [6].“失衡效应”:政府部门在决策过程中的定位与机制[J]. 天津行政学院学报 2016(04)
    • [7].论决策过程中的逻辑应用[J]. 市场论坛 2010(03)
    • [8].公共政策“前决策过程”概念、特性与改进论析[J]. 四川大学学报(哲学社会科学版) 2011(02)
    • [9].决策过程的三个伦理问题[J]. 决策与信息 2017(02)
    • [10].试论公共决策过程中利益集团冲突的原因与影响——基于社会主义和谐社会建设的视角[J]. 理论导刊 2010(10)
    • [11].论办公室人员在领导决策过程中的作用[J]. 交通职业教育 2008(04)
    • [12].决策与批判性思维[J]. 决策与信息 2017(01)
    • [13].情报决策中“团体迷思”的诱发因素及防范措施初探[J]. 黑河学刊 2017(05)
    • [14].依法决策改革的重点[J]. 理论学习 2015(06)
    • [15].决策思维视域下非理性决策防范分析[J]. 大连干部学刊 2017(08)
    • [16].“拍板”的艺术[J]. 党员干部之友 2010(12)
    • [17].合伙创业 如何规避风险?[J]. 劳动保障世界 2012(05)
    • [18].“拍板”的艺术[J]. 党政论坛 2010(04)
    • [19].浅论决策过程中的障碍因素与解决对策[J]. 中国集体经济 2010(27)
    • [20].决策过程应把握好的几种关系[J]. 领导科学 2009(22)
    • [21].广义可能性决策过程的计算树逻辑模型检测[J]. 计算机工程与科学 2015(11)
    • [22].电子参与研究:基于政策决策过程的模式构建[J]. 情报杂志 2012(11)
    • [23].从“治堵”想到的反思[J]. 中国物流与采购 2011(02)
    • [24].基于时间竞争的企业高管团队战略决策过程概念模型构建[J]. 湘潭大学学报(哲学社会科学版) 2011(04)
    • [25].行政决策的不可行性研究——以三门峡水利枢纽工程的决策过程为例[J]. 广西职业技术学院学报 2016(02)
    • [26].战略决策过程:批判性回顾与未来研究展望[J]. 管理世界 2012(01)
    • [27].支持共识决策过程的群排序集结[J]. 计算机工程与应用 2011(29)
    • [28].欧洲的电动机动化:全面回顾决策过程中的激励因素和障碍[J]. 城市规划学刊 2019(04)
    • [29].大数据对企业决策过程的影响:一个多案例的研究[J]. 河北经贸大学学报 2018(03)
    • [30].中国思想库在决策过程中的运行逻辑及实现途径[J]. 江西社会科学 2013(01)

    标签:;  ;  ;  ;  ;  ;  

    扩展Markov决策过程的性能灵敏度分析与优化
    下载Doc文档

    猜你喜欢