不确定SMDP基于性能势的鲁棒控制研究

论文摘要

半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型，其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中，状态的转移概率和性能函数是影响系统性能的两个重要因素。然而实际应用中，由于建模上的困难和外界环境的干扰，系统的状态转移概率往往难以精确得知，系统的即时性能也可能因某些不确定参数的影响而产生波动。为适应这类不确定SMDP系统在最优控制上的需要，本文在性能势理论的基础上研究了一类受不确定参数影响的SMDP鲁棒控制问题，着重讨论参数极坏情况下使系统性能达到最优的鲁棒控制策略求解算法。根据嵌入链结构的不同，SMDP可划分为遍历链、单链和多链三种模型。本文从最简单的遍历链模型出发，首先给出不相关不确定参数下的求解最优鲁棒策略的策略迭代算法，并讨论了策略迭代的收敛性；对参数相关的情况，本文详细介绍了遗传算法在SMDP鲁棒控制过程中的应用。在一般的多链模型中，由于多个常返类和瞬态的存在，要求解其最优策略是相当困难的。通过一些假设性条件的限制，本文研究了平均准则下一类特殊多链SMDP的最优性方程，并给出了相应的策略迭代算法。考虑到系统状态数目的增加将导致优化时间过长，为提高效率，本文在参数相关的多链鲁棒控制过程中引入并行遗传算法，通过多个处理机上的协同寻优来加速搜索，文中我们还详细讨论了迁移算子的两种具体实现方式。由于单链结构是多链的一种特例，上述有关算法也可运用于解决单链SMDP的鲁棒控制问题。文章通过一些数值例子来说明相关算法的应用，并根据实验结果分析了各种鲁棒决策算法的优化效果。

论文目录

摘要

ABSTRACT

致谢

插图清单

表格清单

第一章绪论

1.1 SMDP简介

1.2 Markov决策理论的发展历史及研究现状

1.3 SMDP的鲁棒控制问题

1.4 本文内容和结构安排

第二章半Markov决策过程及其优化理论

2.1 半Markov决策过程

2.1.1 SMDP的数学模型

2.1.2 SMDP的等价无穷小生成子和等价Markov过程

2.1.3 SMDP的α-一致化Markov链

2.2 SMDP的性能势及最优性方程

2.2.1 SMDP的性能势

2.2.2 基于性能势的最优性方程和最优性定理

2.3 不确定SMDP的数学模型及鲁棒控制目标

第三章遍历链SMDP的鲁棒控制求解

3.1 参数不相关的鲁棒控制求解

3.1.1 策略迭代算法（PI）

3.1.2 基于PI的鲁棒决策算法及其收敛性分析

3.1.2 数值例子及实验结果

3.2 参数相关的鲁棒控制求解

3.2.1 遗传算法（GA）

3.2.2 基于GA的鲁棒决策算法

3.2.3 数值例子及实验结果

3.3 本章小结

第四章多链SMDP的鲁棒控制求解

4.1 多链SMDP的数学模型

4.2 多链SMDP的性能势和最优性方程

4.3 参数不相关的鲁棒控制求解

4.3.1 多链结构下的策略迭代算法

4.3.2 数值例子及实验结果

4.4 参数相关的鲁棒控制求解

4.4.1 并行遗传算法（PGA）

4.4.2 基于PGA的鲁棒决策算法

4.4.3 数值例子及实验结果

4.5 本章小结

第五章总结与展望

参考文献

攻读硕士学位期间发表的论文

不确定SMDP基于性能势的鲁棒控制研究

论文摘要

论文目录

相关论文文献

猜你喜欢