控制系统的学习和优化：马尔可夫性能势理论与方法

论文摘要

本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于性能势这一核心概念,可以将学习和优化领域的各种研究内容和成果放到统一的框架中。进一步,还可以提出相当多的理论和算法。传统的最优控制方法,只能处理比较简单的,或者比较特殊的情况,而对于一般化的问题难以求解。将学习和优化领域的各种理论与方法应用到这些问题上,可以得到相当多的用传统方法无法得到的成果。本文首先将马尔可夫性能势理论扩展到连续的状态空间。成功的建立起动态系统和马尔可夫系统之间的联系。基于此,导出了动态控制系统的性能势表达式。在有了性能势这个核心概念以后,学习与优化领域的各种方法,如策略迭代方法、强化学习方法都可以成功的运用到动态控制系统中,以寻找最优的反馈控制策略。性能势理论和方法的优势,在于重新发掘了系统结构信息,并且很容易设计出在线学习的优化算法。本文重点考虑了在三类系统中,性能势理论和方法的应用。分别是跳变线性二次(JLQ)系统的分层控制问题,基于事件的控制问题和带有约束的最优控制问题。对每一类问题,应用马尔可夫模型建模,将原问题转化为等价马尔可夫决策过程的优化问题。应用性能势的概念,可以发现一些有用的信息。针对跳变线性二次模型的上层优化问题,我们提出了模态的性能势表达式,由此可以求解传统方法无法处理的JLQ系统的分层控制问题。采用时间集结的思路,首次给出了Lebesgue采样系统的最优控制模型,并提出解析的和基于样本路径的算法,同时可以将时间集结的想法应用于熔炉加热过程这一工程系统中。采用性能梯度方法,研究了带有约束的最优控制问题,提出了在线的学习优化算法。

论文目录

摘要

Abstract

第1章引言

1.1 论文研究背景和研究内容

1.1.1 学习和优化综述

1.1.2 马尔可夫系统与性能势理论

1.1.3 动态系统最优控制

1.2 论文研究思路和主要工作

第2章基于策略迭代的反馈控制

2.1 本章引言

2.2 控制系统建模为MDP

2.3 连续状态空间MDP

2.3.1 转移概率函数及稳态概率

2.3.2 性能势和策略迭代

2.3.2.1 性能势

2.3.2.2 性能优化

2.3.3 动态规划和策略迭代的比较

2.4 跳变线性二次（JLQ）问题

2.4.1 转移算子

2.4.2 性能势

2.4.3 最优策略

2.5 本章小结

第3章基于策略迭代的学习算法

3.1 本章引言

3.2 控制系统建模为MDP

3.3 在线学习和优化方法

3.3.1 状态空间的离散化

3.3.2 近似链的策略迭代

3.3.3 性能势和相关参数的估计

3.4 例子

3.5 本章小结

第4章 JLQG模态跳变的优化之一——开环模态控制

4.1 本章引言

4.2 连续时间JLQG

4.2.1 问题描述

4.2.2 下层控制问题的解——JLQG调节器

4.2.3 上层优化问题的解——基于性能势理论的方法

4.3 离散时间JLQG

4.3.1 问题描述

4.3.2 下层控制问题的解——JLQG调节器

4.3.3 上层优化问题的解——基于性能势理论的方法

4.4 应用:一个容错制造系统的优化

4.5 本章小结

第5章 JLQG模态跳变的优化之二——闭环模态控制

5.1 本章引言

5.2 问题描述

5.3 两类模态控制策略的分析

5.4 数值算例

5.5 本章小结

第6章 JLQ模型的直接自适应最优控制

6.1 本章引言

6.2 问题描述

6.3 Q函数与策略迭代

6.3.1 策略评价——估计Q函数

6.3.2 策略改进——基于Q函数的改进公式

6.3.3 直接自适应策略迭代

6.4 数值算例

6.5 本章小结

第7章 Lebesgue采样系统的最优控制问题——时间集结的方法

7.1 本章引言

7.2 模型描述

7.3 时间集结的方法

7.4 解析解法

7.4.1 特殊情形:状态无关情形

7.5 基于样本路径的算法

7.5.1 等价的非周期链

7.5.2 Q因子

7.5.3 估计ε（d,u）

7.5.4 SARSA

7.6 基于周期采样的最优控制

7.7 数值算例和比较

7.8 本章小结

第8章时间集结在一类混杂制造系统中的应用

8.1 本章引言与模型描述

8.2 熔炉加热过程及求解

8.3 本章小结

第9章带有约束的LQG模型的学习算法

9.1 本章引言

9.2 模型描述

9.3 学习算法

9.3.1 性能梯度

9.3.2 梯度下降算法

9.4 两类特殊情况

9.4.1 数值控制集合

9.4.2 正控制集合

9.5 数值算例

9.6 本章小结

第10章结论与展望

10.1 论文工作的总结

10.2 进一步研究和展望

参考文献

致谢

个人简历、在学期间发表的学术论文与研究成果

控制系统的学习和优化：马尔可夫性能势理论与方法

论文摘要

论文目录

相关论文文献

猜你喜欢