论文摘要
本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于性能势这一核心概念,可以将学习和优化领域的各种研究内容和成果放到统一的框架中。进一步,还可以提出相当多的理论和算法。传统的最优控制方法,只能处理比较简单的,或者比较特殊的情况,而对于一般化的问题难以求解。将学习和优化领域的各种理论与方法应用到这些问题上,可以得到相当多的用传统方法无法得到的成果。本文首先将马尔可夫性能势理论扩展到连续的状态空间。成功的建立起动态系统和马尔可夫系统之间的联系。基于此,导出了动态控制系统的性能势表达式。在有了性能势这个核心概念以后,学习与优化领域的各种方法,如策略迭代方法、强化学习方法都可以成功的运用到动态控制系统中,以寻找最优的反馈控制策略。性能势理论和方法的优势,在于重新发掘了系统结构信息,并且很容易设计出在线学习的优化算法。本文重点考虑了在三类系统中,性能势理论和方法的应用。分别是跳变线性二次(JLQ)系统的分层控制问题,基于事件的控制问题和带有约束的最优控制问题。对每一类问题,应用马尔可夫模型建模,将原问题转化为等价马尔可夫决策过程的优化问题。应用性能势的概念,可以发现一些有用的信息。针对跳变线性二次模型的上层优化问题,我们提出了模态的性能势表达式,由此可以求解传统方法无法处理的JLQ系统的分层控制问题。采用时间集结的思路,首次给出了Lebesgue采样系统的最优控制模型,并提出解析的和基于样本路径的算法,同时可以将时间集结的想法应用于熔炉加热过程这一工程系统中。采用性能梯度方法,研究了带有约束的最优控制问题,提出了在线的学习优化算法。
论文目录
相关论文文献
- [1].一种基于马尔可夫性质的因果知识挖掘方法[J]. 计算机研究与发展 2014(11)
- [2].利用量子相干性判定开放二能级系统中非马尔可夫性[J]. 物理学报 2015(14)
- [3].基于序贯重要性采样的电力系统连锁故障负荷损失分析方法[J]. 电网技术 2016(10)
- [4].分支机制依赖于种群总数的超过程[J]. 信阳师范学院学报(自然科学版) 2013(02)
- [5].极大祖先图的马尔可夫性质研究[J]. 青岛大学学报(自然科学版) 2019(02)
- [6].马尔可夫随机过程研究[J]. 课程教育研究 2018(42)
- [7].高阶非马尔可夫时效网络的结构可控性分析[J]. 系统科学与数学 2020(05)
- [8].Markov链在股票市场近期走势的预测分析[J]. 现代商贸工业 2010(16)
- [9].施工机械设备的可靠性预测[J]. 机械制造与自动化 2010(06)
- [10].利用马尔可夫链模型预测股票市场的近期走势[J]. 西南民族大学学报(自然科学版) 2008(03)
- [11].基于马尔科夫链的毕业生就业移动预测系统研究[J]. 高师理科学刊 2013(04)
- [12].密度预测法在价格指数预测中的应用[J]. 中国物价 2014(11)
- [13].结合人体运动特征的行为识别[J]. 北京交通大学学报 2009(02)
- [14].基于马尔可夫链的过程性评价量化研究[J]. 科学技术创新 2020(01)
- [15].民族问题社会建构的随机过程与马尔可夫性策略——云南黑树林地区水利纷争民族问题化的人类学解读[J]. 西南民族大学学报(人文社科版) 2015(08)
- [16].FSMC无线通信应用综述[J]. 科学技术与工程 2012(18)
- [17].支持多类型业务的受限负载EDCA性能分析[J]. 计算机工程 2010(13)
- [18].风险模型的极值联合分布[J]. 包钢科技 2009(01)
- [19].优化策略模型下的匹配律算法[J]. 东南大学学报(自然科学版) 2009(S1)
- [20].城市轨道交通应急资源选址和配置方法研究[J]. 交通运输研究 2016(04)
- [21].双马尔可夫决策过程联合模型[J]. 计算机科学 2009(09)
- [22].古典风险模型的极值分布[J]. 内蒙古科技与经济 2011(24)
- [23].连续双向拍卖市场中基于马尔可夫链的交易策略研究[J]. 中国管理科学 2008(01)
- [24].面向间隔告警的多步网络攻击定量关联方法[J]. 计算机工程与设计 2019(11)
- [25].时域证据融合中的可信度衰减模型[J]. 系统工程与电子技术 2015(07)
- [26].马尔可夫性及其检验方法研究[J]. 价值工程 2012(02)
- [27].基于马尔科夫与蒙特卡罗仿真的导弹装备备件需求量预测[J]. 兵工自动化 2011(10)
- [28].赌徒破产概率的生灭过程模型[J]. 黑龙江大学自然科学学报 2010(02)
- [29].基于马尔可夫链的股价预测[J]. 商场现代化 2009(06)
- [30].随机连接广义合作网络模型[J]. 数学理论与应用 2012(03)
标签:离散事件动态系统论文; 马尔可夫决策过程论文; 性能势论文; 最优控制论文; 在线优化论文;