大规模Markov决策过程基于性能势的并行算法研究与应用

大规模Markov决策过程基于性能势的并行算法研究与应用

论文摘要

随着科技的发展,在当今社会中,广泛存在着一类复杂的随机动态系统,即离散事件动态系统(DEDS)。Markov决策过程(MDP)是DEDS建模常见的方法,其性能优化问题一直是学者研究的重要方向。Markov性能势理论的提出,为MDP的分析和研究提供了一种新的理论框架。在性能势理论的基础上,我们不仅可以建立基于已知模型参数的理论计算来寻求最优策略,而且可以在模型参数未知时利用基于样本轨道的仿真和在线学习算法来求解。在实际大规模的Markov系统中,串行执行优化算法的时间往往很长,甚至问题求解不可行。采用并行计算是提高MDP执行效率最直接最有效的一种方式。一方面,并行求解能真正缩减算法的计算时间;另一方面,在MDP仿真优化时,并行仿真不仅能加快收敛速度,还有可能得到更为精确的解。因此MDP并行计算的实现对实际大规模MDP的性能优化具有重要的指导作用,本论文主要对MDP并行算法展开研究,研究内容包括基于性能势的MDP理论迭代算法和仿真优化方法的并行化实现。对于MDP理论计算的并行化实现,文章给出了并行数值迭代算法,该算法将状态空间划分为若干个状态子空间,每个处理节点只在一个状态子空间上运算,从而降低优化求解时间。针对随机划分状态空间方法易使处理节点间负载严重不平衡,并行效率低下的问题,论文提出了一种启发式的划分策略。该划分策略将处理器等待时间作为目标函数,通过极小化所有处理器的等待时间来划分和分配状态空间。实验结果表明采用启发式划分方法的并行性能要优于采用随机划分方法。对于MDP仿真算法的并行化实现,论文讨论了并行Q学习和NDP并行优化方法。首先,文章在性能势理论框架内,提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,探讨了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。在NDP并行优化中,论文以神经网络集成有关理论为出发点,采用多个神经元网络并行仿真学习来提高NDP优化效率,提出了两种NDP并行优化算法。文中还给出了三种生成差异度不同的神经元网络的方法,并通过求解实例对比了这三种方法的优化效果。此外,文章还研究了Rollout算法及其并行求解方法。首先,我们给出了基于NDP的在线Rollout算法,提出了状态划分和行动划分的Rollout并行算法,分析了两种并行算法的实用场合,并用于解决多类商品库存控制和多级仓库库存控制问题。

论文目录

  • 摘要
  • ABSTRACT
  • 致谢
  • 第一章 绪论
  • 1.1 DEDS、MDP与性能势理论
  • 1.2 并行计算概括
  • 1.2.1 并行计算机分类
  • 1.2.2 并行编程语言和环境
  • 1.2.3 并行算法设计过程
  • 1.2.4 并行算法的性能评价
  • 1.3 MDP串行和并行算法的研究现状
  • 1.4 论文的主要工作
  • 第二章 MDP优化基本理论
  • 2.1 MDP数学模型
  • 2.2 MDP优化方法
  • 2.2.1 基于理论计算的优化方法
  • 2.2.2 基于强化学习的仿真优化方法
  • 2.2.3 基于NDP的仿真优化算法
  • 第三章 并行数值迭代算法
  • 3.1 引言
  • 3.2 并行数值迭代算法的基本框架
  • 3.3 划分策略
  • 3.3.1 模型建立
  • 3.3.2 启发式划分策略
  • 3.3.3 性能分析
  • 3.4 数值例子
  • 3.5 本章小结
  • 第四章 并行仿真优化方法
  • 4.1 并行Q学习算法
  • 4.1.1 Q学习算法
  • 4.1.2 基于并行思想的Q学习算法改进
  • 4.1.3 算法中主要参数设计
  • 4.1.3.1 同步策略
  • 4.1.3.2 Q值构建策略
  • 4.1.4 数值例子
  • 4.2 并行NDP优化算法
  • 4.2.1 Critic模式下NDP优化方法
  • 4.2.1.1 性能势TD学习算法
  • 4.2.1.2 NDP优化算法
  • 4.2.2 基于神经网络集成的NDP并行优化
  • 4.2.2.1 神经网络集成
  • 4.2.2.2 NDP并行优化方法
  • 4.2.3 数值例子
  • 4.3 本章小结
  • 第五章 在线Rollout仿真算法及并行实现
  • 5.1 引言
  • 5.2 Rollout及其并行求解算法
  • 5.3 Rollout算法在多类商品库存控制中的应用
  • 5.3.1 基本假设
  • 5.3.2 数学符号
  • 5.3.3 多类商品库存控制的MDP数学模型
  • 5.3.4 数值例子
  • 5.4 Rollout算法在多级仓库库存控制中的应用
  • 5.4.1 多agent学习研究概况
  • 5.4.2 多agent MDP数学模型
  • 5.4.3 多agent Rollout学习算法
  • 5.4.4 多级仓库最优库存控制实例
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 攻读硕士学位期间主要科研工作和成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    大规模Markov决策过程基于性能势的并行算法研究与应用
    下载Doc文档

    猜你喜欢