值迭代算法论文

机器人导航POMDP算法研究
论文摘要部分可观测马尔可夫决策过程(POMDP)是一种用于制定序列决策的经典模型。在该模型中,智能体做出动作所产生的效果是不确定的,对环境状态信息的观测也是不完整的。因此,PO...
离散时间马氏过程的最优控制——新的最优性条件和新的方法
论文题目:离散时间马氏过程的最优控制——新的最优性条件和新的方法论文类型:博士论文论文专业:概率统计作者:朱全新导师:戴永隆,郭先平关键词:离散时间马氏决策过程,最优平稳策略,...