机器人导航POMDP算法研究

机器人导航POMDP算法研究

论文摘要

部分可观测马尔可夫决策过程(POMDP)是一种用于制定序列决策的经典模型。在该模型中,智能体做出动作所产生的效果是不确定的,对环境状态信息的观测也是不完整的。因此,POMDP对于表达智能体在非确定环境下的序列决策问题而言是非常有效的模型。本文对POMDP基本理论进行了深入地研究,并分析了POMDP的复杂度及理论结果,对值迭代算法进行了改进。然后对POMDP模型在机器人导航控制的应用进行了仿真实验,并分析了仿真结果,对仿真实验中出现的问题进行了分析。首先,介绍了当前应用在机器人导航控制领域中的几个经典的智能控制算法,并介绍了本文要研究的POMDP理论的研究现状。然后,详细阐述了部分可观测马尔可夫决策过程(POMDP)的基本理论及数学框架。为了清楚地说明POMDP的基本思想和理论背景,给出了一个循序渐进的理论阐述过程:先详细阐述了MDP理论,然后在MDP的基础上引出了对POMDP模型的定义以及POMDP问题的求解算法。重点研究了POMDP的代表性算法,对其精确求解算法给予了深入的分析,并对值迭代算法进行了改进。最后,给出了POMDP模型实现机器人导航控制任务的各要素设计,应用POMDP模型解决了机器人在各种复杂仿真环境中的导航问题,完成了路径规划任务和环境建模任务。对于处在现实环境中的机器人来说,环境信息的部分可观测性主要表现在机器人通过传感器对环境的感知是否完全。本文在模拟声纳扫描环境的过程中,将声纳对环境信息观测的不确定性用概率的形式表现出来,并将其与POMDP模型的信度状态更新相结合,给出了一种新的控制模式。实验表明,POMDP算法能够在较为复杂的未知环境中有效地解决机器人的导航控制问题。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 引言
  • 1.2 机器人导航智能控制算法
  • 1.3 POMDP算法的国内外研究现状
  • 1.4 本课题的研究意义
  • 1.5 论文的主要工作和组织
  • 第2章 POMDP基本理论
  • 2.1 Markov决策过程的起源与发展
  • 2.2 Markov决策过程的定义
  • 2.3 MDP问题的求解
  • 2.4 从MDP到POMDP
  • 2.5 POMDP的定义
  • 2.5.1 POMDP模型的定义
  • 2.5.2 信度状态,策略和值函数
  • 2.6 POMDP问题的求解
  • 2.6.1 POMDP的值函数
  • 2.6.2 POMDP问题的决策树及值迭代算法
  • 2.6.3 值函数的简化
  • 2.7 POMDP求解实例
  • 2.8 本章小结
  • 第3章 POMDP算法研究
  • 3.1 求解POMDP的代表性算法
  • 3.1.1 值迭代
  • 3.1.2 策略迭代
  • 3.2 POMDP的理论结果
  • 3.3 POMDP值迭代精确求解算法
  • 3.3.1 值函数的分解
  • 3.3.2 值迭代超集算法
  • 3.4 对值迭代算法的改进
  • 3.4.1 算法的改进
  • 3.4.2 改进算法的实验分析
  • 3.5 本章小结
  • 第4章 基于POMDP的机器人导航方法研究
  • 4.1 基于POMDP模型实现机器人导航系统的各要素设计
  • 4.1.1 状态空间和动作空间的表示
  • 4.1.2 奖赏值的设计
  • 4.2 环境信息的获取
  • 4.2.1 声纳传感器模型
  • 4.2.2 使用声纳传感器更新栅格状态
  • 4.3 导航的任务设置
  • 4.3.1 路径规划
  • 4.3.2 环境建模
  • 4.4 导航策略
  • 4.4.1 路径规划策略设计
  • 4.4.2 环境建模策略设计
  • 4.5 本章小结
  • 第5章 仿真设计及结果分析
  • 5.1 仿真系统设计
  • 5.2 路径规划仿真分析
  • 5.2.1 避障成功的仿真结果
  • 5.2.2 对极点问题的解决
  • 5.3 环境建模仿真分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].基于分层POMDP的智能轮椅行为控制方法[J]. 高技术通讯 2010(06)
    • [2].基于POMDP模型的机器人导航控制方法[J]. 华中科技大学学报(自然科学版) 2008(S1)
    • [3].基于POMDP的流媒体网络数据调度建模与仿真[J]. 中国科学技术大学学报 2013(04)
    • [4].一种基于POMDP用户意图建模的智能轮椅导航控制方法[J]. 东南大学学报(自然科学版) 2009(S1)
    • [5].基于一阶信念点的一阶POMDP值迭代算法研究[J]. 计算机工程与应用 2012(15)
    • [6].预测行人运动的服务机器人POMDP导航[J]. 机器人 2010(01)
    • [7].基于POMDP的动态客户关系管理建模研究[J]. 系统工程学报 2010(03)
    • [8].基于POMDP模型的机器人行动的仿真优化[J]. 系统仿真学报 2008(21)
    • [9].POMDP基于点的值迭代算法中一种信念选择方法[J]. 北京交通大学学报 2009(05)
    • [10].基于信念点裁剪策略树的POMDP求解算法[J]. 信息与控制 2013(01)
    • [11].认知无线电中基于POMDP的机会频谱接入方案[J]. 计算机工程与设计 2011(04)
    • [12].基于POMDP的VOD接入控制建模与仿真[J]. 中国科学技术大学学报 2009(09)
    • [13].改进GA3C求解POMDP的深度强化学习网络模型[J]. 电脑编程技巧与维护 2019(04)
    • [14].基于杂合标准的POMDP值迭代求解算法[J]. 模式识别与人工智能 2016(11)
    • [15].基于POMDP框架的集群无人机侦察任务可靠性建模[J]. 环境技术 2020(05)
    • [16].POMDP在住院2型糖尿病治疗方案优化研究中的应用[J]. 今日药学 2017(09)
    • [17].基于POMDP的认知无线电自适应频谱感知算法[J]. 通信学报 2013(06)
    • [18].基于POMDP的负载均衡贪婪转发策略[J]. 计算机应用研究 2014(05)
    • [19].基于POMDP的次用户多时隙信道选择算法[J]. 电视技术 2014(13)
    • [20].基于POMDP的认知无线网络次用户多时隙信道选择算法[J]. 计算机应用与软件 2014(10)
    • [21].基于POMDP的认知无线电动态频谱接入算法[J]. 科学技术与工程 2009(12)
    • [22].基于POMDP强化学习的动态频谱分配算法[J]. 北京邮电大学学报 2009(06)
    • [23].基于POMDP的不稳定心绞痛中西医结合治疗方案优化研究[J]. 中国中西医结合杂志 2013(07)
    • [24].基于POMDP的信道感知接入算法[J]. 计算机工程与应用 2014(05)
    • [25].基于部分可观察马尔科夫决策过程(POMDP)的贪婪算法次优频谱接入[J]. 科学技术与工程 2014(15)
    • [26].基于POMDP模型的分布式机会频谱接入算法[J]. 南京邮电大学学报(自然科学版) 2014(01)
    • [27].多小区OFDMA系统中基于POMDP的干扰协调[J]. 电信科学 2013(04)
    • [28].异构密集网络下基于POMDP负载感知的负载均衡算法研究[J]. 电子与信息学报 2017(09)
    • [29].利用POMDP模型来增强分布式系统的生存性[J]. 计算机应用与软件 2009(01)
    • [30].基于策略迭代和值迭代的POMDP算法[J]. 计算机研究与发展 2008(10)

    标签:;  ;  ;  ;  

    机器人导航POMDP算法研究
    下载Doc文档

    猜你喜欢