论文题目: 离散时间马氏过程的最优控制——新的最优性条件和新的方法
论文类型: 博士论文
论文专业: 概率统计
作者: 朱全新
导师: 戴永隆,郭先平
关键词: 离散时间马氏决策过程,最优平稳策略,值迭代算法,平均准则,方差准则
文献来源: 中山大学
发表年度: 2005
论文摘要: 本篇博士论文对离散时间马氏决策过程(discrete-time Markov decision processes, 简记为DTMDP)的一系列问题做了进一步的研究. 这些问题主要包括: (1) 可数状态上极限和下极限两种平均准则下的最优性问题. (2) 一般状态空间中的平均最优平稳策略的存在性条件, 值迭代算法以及最优策略的性质. (3) 一般状态空间中的平均样本轨道最优性问题.(4) 一般状态空间中的方差最优性问题. (5) 一般状态空间中的强n(n = ?1,0)-折扣最优性问题. 本文用新方法所得结果推广了已有文献中相应的结论, 并且可应用于以前所不能处理的若干情形. 此外, 还通过库存系统和受控的排队系统等一些实例, 说明了相应条件和结果的应用.全文共分为七章.第一章为综述, 简要地介绍了马氏决策过程的历史背景, 研究内容, 发展现状以及本文所做的主要工作.第二章讨论了可数状态上极限和下极限两种平均准则下的最优性问题. 我们给出了一组新的最优性条件, 并在此条件下保证存在既是上极限又是下极限平均最优平稳策略. 而且, 本章的条件和结果被应用到一个允许控制的排队模型.第三章讨论了Borel状态空间中的平均最优性问题. 我们首先给出“两个相反方向的最优不等式”, 并给了条件使这两个不等式的解存在. 然后, 从这两个不等式出发, 并在连续紧条件下我们可以保证存在平均最优平稳策略. 我们的条件弱于以往文献中的条件. 特别,我们还给出了一些加在模型原始数据中的新充分性条件. 而且, 我们的方法与DTMDP中著名的“最优不等式方法”稍有不同. 另外, 我们对最优策略的性质也作了进一步的研究. 我们不仅得到了最优策略的两个充分必要条件, 而且给出了最优平稳策略的“半鞅刻划”. 最后, 本章的条件和结果被运用到受控的排队系统和可控的一般化的Potlach过程.第四章讨论了Borel状态空间中的平均期望费用的值迭代问题, 即通过值迭代算法来研
论文目录:
中文摘要
英文摘要
目录
第一章 综述
1.1 马尔可夫决策过程的历史背景
1.2 离散时间MDP模型
1.3 策略的几个基本定义及其上的概率空间构造
1.4 常用的几个最优性准则
1.5 国内外DTMDP的研究现状
1.6 本文的主要工作
第二章 DTMDP的上极限和下极限平均准则
2.1 引言
2.2 模型, 概念及定义
2.3 最优性条件及技术引理
2.4 平均费用最优平稳策略的存在性
2.5 例子
2.6 本章结束语
第三章 Borel空间的DTMDP平均最优性问题
3.1 引言
3.2 最优控制问题
3.3 最优性条件
3.4 平均最优平稳策略的存在性
3.5 平均最优平稳策略的半鞅刻划
3.6 例子
3.7 本章结束语
第四章 Borel空间的DTMDP平均期望费用的值迭代算法
4.1 引言
4.2 最优控制问题
4.3 平均费用最优过程
4.4 值迭代算法
4.5 本章结束语
第五章 Borel空间DTMDP的平均样本轨道最优
5.1 引言
5.2 最优控制问题
5.3 最优性条件
5.4 平均样本轨道费用最优平稳策略的存在性
5.5 例子
5.6 本章结束语
第六章 Borel空间DTMDP的方差最优
6.1 引言
6.2 最优控制问题
6.3 最优性条件
6.4 方差最小
6.5 例子
6.6 本章结束语
第七章 Borel空间DTMDP的强n(n =-1,0)-折扣最优
7.1 引言
7.2 最优控制问题
7.3 最优性条件及引理
7.4 主要结果
7.5 例子
7.6 本章结束语
参考文献
博士期间发表和完成的论文
致谢
原创声明
发布时间: 2006-02-21
相关论文
- [1].基于马尔可夫决策理论的规划问题的研究[D]. 范长杰.中国科学技术大学2008
- [2].多链马氏决策优化理论研究及在联合更换问题中的应用[D]. 孙滔.清华大学2008
- [3].控制系统的学习和优化:马尔可夫性能势理论与方法[D]. 徐琰恺.清华大学2008
- [4].随机环境中马氏链的极限性质[D]. 肖争艳.武汉大学2003
- [5].最优控制理论与应用中的两个问题[D]. 朱尚伟.复旦大学2005
- [6].几类马氏骨架过程的研究与Q过程的若干性质[D]. 唐荣.中南大学2005
- [7].排队论中衍生的马尔可夫链的各种遍历性[D]. 李晓花.中南大学2005
- [8].几类特殊随机环境下的马氏过程的统计问题[D]. 张术林.武汉大学2005
- [9].马氏过程的遍历性理论及其应用[D]. 刘源远.中南大学2006
- [10].扩展Markov决策过程的性能灵敏度分析与优化[D]. 李衍杰.中国科学技术大学2006
标签:离散时间马氏决策过程论文; 最优平稳策略论文; 值迭代算法论文; 平均准则论文; 方差准则论文;