论文摘要
半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型,其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中,状态的转移概率和性能函数是影响系统性能的两个重要因素。然而实际应用中,由于建模上的困难和外界环境的干扰,系统的状态转移概率往往难以精确得知,系统的即时性能也可能因某些不确定参数的影响而产生波动。为适应这类不确定SMDP系统在最优控制上的需要,本文在性能势理论的基础上研究了一类受不确定参数影响的SMDP鲁棒控制问题,着重讨论参数极坏情况下使系统性能达到最优的鲁棒控制策略求解算法。根据嵌入链结构的不同,SMDP可划分为遍历链、单链和多链三种模型。本文从最简单的遍历链模型出发,首先给出不相关不确定参数下的求解最优鲁棒策略的策略迭代算法,并讨论了策略迭代的收敛性;对参数相关的情况,本文详细介绍了遗传算法在SMDP鲁棒控制过程中的应用。在一般的多链模型中,由于多个常返类和瞬态的存在,要求解其最优策略是相当困难的。通过一些假设性条件的限制,本文研究了平均准则下一类特殊多链SMDP的最优性方程,并给出了相应的策略迭代算法。考虑到系统状态数目的增加将导致优化时间过长,为提高效率,本文在参数相关的多链鲁棒控制过程中引入并行遗传算法,通过多个处理机上的协同寻优来加速搜索,文中我们还详细讨论了迁移算子的两种具体实现方式。由于单链结构是多链的一种特例,上述有关算法也可运用于解决单链SMDP的鲁棒控制问题。文章通过一些数值例子来说明相关算法的应用,并根据实验结果分析了各种鲁棒决策算法的优化效果。
论文目录
摘要ABSTRACT致谢插图清单表格清单第一章 绪论1.1 SMDP简介1.2 Markov决策理论的发展历史及研究现状1.3 SMDP的鲁棒控制问题1.4 本文内容和结构安排第二章 半Markov决策过程及其优化理论2.1 半Markov决策过程2.1.1 SMDP的数学模型2.1.2 SMDP的等价无穷小生成子和等价Markov过程2.1.3 SMDP的α-一致化Markov链2.2 SMDP的性能势及最优性方程2.2.1 SMDP的性能势2.2.2 基于性能势的最优性方程和最优性定理2.3 不确定SMDP的数学模型及鲁棒控制目标第三章 遍历链SMDP的鲁棒控制求解3.1 参数不相关的鲁棒控制求解3.1.1 策略迭代算法(PI)3.1.2 基于PI的鲁棒决策算法及其收敛性分析3.1.2 数值例子及实验结果3.2 参数相关的鲁棒控制求解3.2.1 遗传算法(GA)3.2.2 基于GA的鲁棒决策算法3.2.3 数值例子及实验结果3.3 本章小结第四章 多链SMDP的鲁棒控制求解4.1 多链SMDP的数学模型4.2 多链SMDP的性能势和最优性方程4.3 参数不相关的鲁棒控制求解4.3.1 多链结构下的策略迭代算法4.3.2 数值例子及实验结果4.4 参数相关的鲁棒控制求解4.4.1 并行遗传算法(PGA)4.4.2 基于PGA的鲁棒决策算法4.4.3 数值例子及实验结果4.5 本章小结第五章 总结与展望参考文献攻读硕士学位期间发表的论文
相关论文文献
标签:半决策过程论文; 性能势论文; 鲁棒控制论文; 策略迭代论文; 遗传算法论文;