论文摘要
在实际生产中,存在着这样一类重要的生产控制模型,即基于传送带服务的生产加工站(Conveyor-Serviced Production Station,简称CSPS)问题,其也是正(Industrial Engineering)/OR(Operations Research)领域的经典问题。随着流水线生产模式的普及,研究CSPS问题则具有比较重要的现实意义。根据CSPS问题的特点,其可以利用DEDS领域中的Markov决策过程(MDP)或半Markov决策过程(SMDP)建模,运用动态规划、强化学习等方法解决其优化控制问题。Markov性能势理论的提出,为MDP/SMDP优化提供了一种新的理论框架和途径。特别是性能势的样本轨道定义,使其可以自然地与强化学习、Rollout等方法相融合,丰富该类问题的优化求解算法。Look-ahead控制是研究CSPS问题的重要方法,即通过监控产品加工站以及传送带的相关信息,做出某些预先判断以便进行合理的行动选择。本文将以性能势理论为基础,研究CSPS基于学习的Look-ahead控制问题。首先,本文讨论的是考虑工件从传送带下载时间因素的CSPS问题,将其合理的建模为SMDP,建立了各种重要参数的推导公式。在SMDP模型参数已知情况下,讨论了基于性能势的策略迭代算法。其次,由性能势的样本轨道定义,建立了基于性能势的Q学习公式,给出了相关优化算法。同时,本文研究了CSPS基于平均准则和折扣准则统一的Rollout算法的优化问题,给出了相关学习公式以及优化算法。我们还采用了摄动分析的方法,结合系统运行的历史信息,给出了改进的Rollout算法。Q学习和Rollout算法不依赖模型参数的特点,使它们在解决这类实际生产问题具有潜在的优势。最后,本文考虑了一类实际生产例子,分别给出了三种算法的相关优化结果,分析了主要参数的变化对系统性能的影响。比较相关优化结果以及结合实际分析,说明三种优化算法是有效的。
论文目录
摘要ABSTRACT第一章 绪论1.1 基于传送带服务的生产加工站(CSPS)1.2 强化学习1.2.1 强化学习定义1.2.2 强化学习的主要元素和特点1.2.3 强化学习算法1.3 MDP/SMDP以及性能势理论1.3.1 MDP/SMDP的概述1.3.2 MDP/SMDP和性能势的关系1.4 论文的组织结构第二章 CSPS问题2.1 CSPS模型的概述2.2 CSPS模型的控制模式说明2.3 CSPS模型的优化目标第三章 CSPS的半Markov决策过程模型3.1 半Markov决策过程的分类和数学模型3.1.1 半Markov决策0的分类3.1.2 半Markov决策过程的数学模型3.2 CSPS建模为半Markov决策过程模型3.2.1 基本的符号和概念3.2.2 系统和性能函数3.3 半Markov决策过程的优化3.3.1 SMDP的优化目标3.3.2 SMDP的优化方法3.3.3 SMDP的Bellman最优性方程3.4 SMDP与其等价MDP及α-一致化链第四章 CSPS基于策略迭代和Q学习的look-ahead控制4.1 策略迭代概述4.2 CSPS模型基于性能势的策略迭代的优化4.2.1 基于性能势的策略迭代算法4.2.2 策略迭代与CSPS问题4.3 性能势与Q学习4.3.1 Q学习的原理4.3.2 基于性能势的Q学习4.4 CSPS模型基于性能势的Q学习优化4.4.1 Q函数的最优性方程4.4.2 基于性能势的Q学习优化算法4.5 实验结果第五章 CSPS基于Rollout的look-ahead控制5.1 基于性能势的Rollout算法5.2 CSPS模型基于性能势的Rollout优化5.2.1 基于性能势的Rollout优化算法5.2.2 摄动分析方法在Rollout优化算法的使用5.2.3 基于历史信息和摄动技术的Rollout算法5.3 实验结果第六章 总结参考文献硕士学位期间主要科研工作和成果
相关论文文献
标签:模型论文; 控制论文; 半决策过程论文; 强化学习论文; 性能势论文; 算法论文;
CSPS模型基于学习的Look-ahead控制研究
下载Doc文档