控制系统的学习和优化:马尔可夫性能势理论与方法

控制系统的学习和优化:马尔可夫性能势理论与方法

论文摘要

本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于性能势这一核心概念,可以将学习和优化领域的各种研究内容和成果放到统一的框架中。进一步,还可以提出相当多的理论和算法。传统的最优控制方法,只能处理比较简单的,或者比较特殊的情况,而对于一般化的问题难以求解。将学习和优化领域的各种理论与方法应用到这些问题上,可以得到相当多的用传统方法无法得到的成果。本文首先将马尔可夫性能势理论扩展到连续的状态空间。成功的建立起动态系统和马尔可夫系统之间的联系。基于此,导出了动态控制系统的性能势表达式。在有了性能势这个核心概念以后,学习与优化领域的各种方法,如策略迭代方法、强化学习方法都可以成功的运用到动态控制系统中,以寻找最优的反馈控制策略。性能势理论和方法的优势,在于重新发掘了系统结构信息,并且很容易设计出在线学习的优化算法。本文重点考虑了在三类系统中,性能势理论和方法的应用。分别是跳变线性二次(JLQ)系统的分层控制问题,基于事件的控制问题和带有约束的最优控制问题。对每一类问题,应用马尔可夫模型建模,将原问题转化为等价马尔可夫决策过程的优化问题。应用性能势的概念,可以发现一些有用的信息。针对跳变线性二次模型的上层优化问题,我们提出了模态的性能势表达式,由此可以求解传统方法无法处理的JLQ系统的分层控制问题。采用时间集结的思路,首次给出了Lebesgue采样系统的最优控制模型,并提出解析的和基于样本路径的算法,同时可以将时间集结的想法应用于熔炉加热过程这一工程系统中。采用性能梯度方法,研究了带有约束的最优控制问题,提出了在线的学习优化算法。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 论文研究背景和研究内容
  • 1.1.1 学习和优化综述
  • 1.1.2 马尔可夫系统与性能势理论
  • 1.1.3 动态系统最优控制
  • 1.2 论文研究思路和主要工作
  • 第2章 基于策略迭代的反馈控制
  • 2.1 本章引言
  • 2.2 控制系统建模为MDP
  • 2.3 连续状态空间MDP
  • 2.3.1 转移概率函数及稳态概率
  • 2.3.2 性能势和策略迭代
  • 2.3.2.1 性能势
  • 2.3.2.2 性能优化
  • 2.3.3 动态规划和策略迭代的比较
  • 2.4 跳变线性二次(JLQ)问题
  • 2.4.1 转移算子
  • 2.4.2 性能势
  • 2.4.3 最优策略
  • 2.5 本章小结
  • 第3章 基于策略迭代的学习算法
  • 3.1 本章引言
  • 3.2 控制系统建模为MDP
  • 3.3 在线学习和优化方法
  • 3.3.1 状态空间的离散化
  • 3.3.2 近似链的策略迭代
  • 3.3.3 性能势和相关参数的估计
  • 3.4 例子
  • 3.5 本章小结
  • 第4章 JLQG模态跳变的优化之一——开环模态控制
  • 4.1 本章引言
  • 4.2 连续时间JLQG
  • 4.2.1 问题描述
  • 4.2.2 下层控制问题的解——JLQG调节器
  • 4.2.3 上层优化问题的解——基于性能势理论的方法
  • 4.3 离散时间JLQG
  • 4.3.1 问题描述
  • 4.3.2 下层控制问题的解——JLQG调节器
  • 4.3.3 上层优化问题的解——基于性能势理论的方法
  • 4.4 应用:一个容错制造系统的优化
  • 4.5 本章小结
  • 第5章 JLQG模态跳变的优化之二——闭环模态控制
  • 5.1 本章引言
  • 5.2 问题描述
  • 5.3 两类模态控制策略的分析
  • 5.4 数值算例
  • 5.5 本章小结
  • 第6章 JLQ模型的直接自适应最优控制
  • 6.1 本章引言
  • 6.2 问题描述
  • 6.3 Q函数与策略迭代
  • 6.3.1 策略评价——估计Q函数
  • 6.3.2 策略改进——基于Q函数的改进公式
  • 6.3.3 直接自适应策略迭代
  • 6.4 数值算例
  • 6.5 本章小结
  • 第7章 Lebesgue采样系统的最优控制问题——时间集结的方法
  • 7.1 本章引言
  • 7.2 模型描述
  • 7.3 时间集结的方法
  • 7.4 解析解法
  • 7.4.1 特殊情形:状态无关情形
  • 7.5 基于样本路径的算法
  • 7.5.1 等价的非周期链
  • 7.5.2 Q因子
  • 7.5.3 估计ε(d,u)
  • 7.5.4 SARSA
  • 7.6 基于周期采样的最优控制
  • 7.7 数值算例和比较
  • 7.8 本章小结
  • 第8章 时间集结在一类混杂制造系统中的应用
  • 8.1 本章引言与模型描述
  • 8.2 熔炉加热过程及求解
  • 8.3 本章小结
  • 第9章 带有约束的LQG模型的学习算法
  • 9.1 本章引言
  • 9.2 模型描述
  • 9.3 学习算法
  • 9.3.1 性能梯度
  • 9.3.2 梯度下降算法
  • 9.4 两类特殊情况
  • 9.4.1 数值控制集合
  • 9.4.2 正控制集合
  • 9.5 数值算例
  • 9.6 本章小结
  • 第10章 结论与展望
  • 10.1 论文工作的总结
  • 10.2 进一步研究和展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].一种基于马尔可夫性质的因果知识挖掘方法[J]. 计算机研究与发展 2014(11)
    • [2].利用量子相干性判定开放二能级系统中非马尔可夫性[J]. 物理学报 2015(14)
    • [3].基于序贯重要性采样的电力系统连锁故障负荷损失分析方法[J]. 电网技术 2016(10)
    • [4].分支机制依赖于种群总数的超过程[J]. 信阳师范学院学报(自然科学版) 2013(02)
    • [5].极大祖先图的马尔可夫性质研究[J]. 青岛大学学报(自然科学版) 2019(02)
    • [6].马尔可夫随机过程研究[J]. 课程教育研究 2018(42)
    • [7].高阶非马尔可夫时效网络的结构可控性分析[J]. 系统科学与数学 2020(05)
    • [8].Markov链在股票市场近期走势的预测分析[J]. 现代商贸工业 2010(16)
    • [9].施工机械设备的可靠性预测[J]. 机械制造与自动化 2010(06)
    • [10].利用马尔可夫链模型预测股票市场的近期走势[J]. 西南民族大学学报(自然科学版) 2008(03)
    • [11].基于马尔科夫链的毕业生就业移动预测系统研究[J]. 高师理科学刊 2013(04)
    • [12].密度预测法在价格指数预测中的应用[J]. 中国物价 2014(11)
    • [13].结合人体运动特征的行为识别[J]. 北京交通大学学报 2009(02)
    • [14].基于马尔可夫链的过程性评价量化研究[J]. 科学技术创新 2020(01)
    • [15].民族问题社会建构的随机过程与马尔可夫性策略——云南黑树林地区水利纷争民族问题化的人类学解读[J]. 西南民族大学学报(人文社科版) 2015(08)
    • [16].FSMC无线通信应用综述[J]. 科学技术与工程 2012(18)
    • [17].支持多类型业务的受限负载EDCA性能分析[J]. 计算机工程 2010(13)
    • [18].风险模型的极值联合分布[J]. 包钢科技 2009(01)
    • [19].优化策略模型下的匹配律算法[J]. 东南大学学报(自然科学版) 2009(S1)
    • [20].城市轨道交通应急资源选址和配置方法研究[J]. 交通运输研究 2016(04)
    • [21].双马尔可夫决策过程联合模型[J]. 计算机科学 2009(09)
    • [22].古典风险模型的极值分布[J]. 内蒙古科技与经济 2011(24)
    • [23].连续双向拍卖市场中基于马尔可夫链的交易策略研究[J]. 中国管理科学 2008(01)
    • [24].面向间隔告警的多步网络攻击定量关联方法[J]. 计算机工程与设计 2019(11)
    • [25].时域证据融合中的可信度衰减模型[J]. 系统工程与电子技术 2015(07)
    • [26].马尔可夫性及其检验方法研究[J]. 价值工程 2012(02)
    • [27].基于马尔科夫与蒙特卡罗仿真的导弹装备备件需求量预测[J]. 兵工自动化 2011(10)
    • [28].赌徒破产概率的生灭过程模型[J]. 黑龙江大学自然科学学报 2010(02)
    • [29].基于马尔可夫链的股价预测[J]. 商场现代化 2009(06)
    • [30].随机连接广义合作网络模型[J]. 数学理论与应用 2012(03)

    标签:;  ;  ;  ;  ;  

    控制系统的学习和优化:马尔可夫性能势理论与方法
    下载Doc文档

    猜你喜欢