机器人导航POMDP算法研究

论文摘要

部分可观测马尔可夫决策过程(POMDP)是一种用于制定序列决策的经典模型。在该模型中,智能体做出动作所产生的效果是不确定的,对环境状态信息的观测也是不完整的。因此,POMDP对于表达智能体在非确定环境下的序列决策问题而言是非常有效的模型。本文对POMDP基本理论进行了深入地研究,并分析了POMDP的复杂度及理论结果,对值迭代算法进行了改进。然后对POMDP模型在机器人导航控制的应用进行了仿真实验,并分析了仿真结果,对仿真实验中出现的问题进行了分析。首先,介绍了当前应用在机器人导航控制领域中的几个经典的智能控制算法,并介绍了本文要研究的POMDP理论的研究现状。然后,详细阐述了部分可观测马尔可夫决策过程(POMDP)的基本理论及数学框架。为了清楚地说明POMDP的基本思想和理论背景,给出了一个循序渐进的理论阐述过程:先详细阐述了MDP理论,然后在MDP的基础上引出了对POMDP模型的定义以及POMDP问题的求解算法。重点研究了POMDP的代表性算法,对其精确求解算法给予了深入的分析,并对值迭代算法进行了改进。最后,给出了POMDP模型实现机器人导航控制任务的各要素设计,应用POMDP模型解决了机器人在各种复杂仿真环境中的导航问题,完成了路径规划任务和环境建模任务。对于处在现实环境中的机器人来说,环境信息的部分可观测性主要表现在机器人通过传感器对环境的感知是否完全。本文在模拟声纳扫描环境的过程中,将声纳对环境信息观测的不确定性用概率的形式表现出来,并将其与POMDP模型的信度状态更新相结合,给出了一种新的控制模式。实验表明,POMDP算法能够在较为复杂的未知环境中有效地解决机器人的导航控制问题。

论文目录

摘要

Abstract

第1章绪论

1.1 引言

1.2 机器人导航智能控制算法

1.3 POMDP算法的国内外研究现状

1.4 本课题的研究意义

1.5 论文的主要工作和组织

第2章 POMDP基本理论

2.1 Markov决策过程的起源与发展

2.2 Markov决策过程的定义

2.3 MDP问题的求解

2.4 从MDP到POMDP

2.5 POMDP的定义

2.5.1 POMDP模型的定义

2.5.2 信度状态，策略和值函数

2.6 POMDP问题的求解

2.6.1 POMDP的值函数

2.6.2 POMDP问题的决策树及值迭代算法

2.6.3 值函数的简化

2.7 POMDP求解实例

2.8 本章小结

第3章 POMDP算法研究

3.1 求解POMDP的代表性算法

3.1.1 值迭代

3.1.2 策略迭代

3.2 POMDP的理论结果

3.3 POMDP值迭代精确求解算法

3.3.1 值函数的分解

3.3.2 值迭代超集算法

3.4 对值迭代算法的改进

3.4.1 算法的改进

3.4.2 改进算法的实验分析

3.5 本章小结

第4章基于POMDP的机器人导航方法研究

4.1 基于POMDP模型实现机器人导航系统的各要素设计

4.1.1 状态空间和动作空间的表示

4.1.2 奖赏值的设计

4.2 环境信息的获取

4.2.1 声纳传感器模型

4.2.2 使用声纳传感器更新栅格状态

4.3 导航的任务设置

4.3.1 路径规划

4.3.2 环境建模

4.4 导航策略

4.4.1 路径规划策略设计

4.4.2 环境建模策略设计

4.5 本章小结

第5章仿真设计及结果分析

5.1 仿真系统设计

5.2 路径规划仿真分析

5.2.1 避障成功的仿真结果

5.2.2 对极点问题的解决

5.3 环境建模仿真分析

5.4 本章小结

结论

参考文献

攻读硕士期间发表的论文和取得的科研成果

致谢

机器人导航POMDP算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢