策略迭代论文

基于增强学习的移动机器人运动控制研究
论文摘要增强学习（Reinforcementlearning:RL）是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增强学习强调在与环境的交互中进行学习,以极大化...
不确定SMDP基于性能势的鲁棒控制研究
论文摘要半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型，其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中，状态的...