基于分层强化学习的移动机器人路径规划

基于分层强化学习的移动机器人路径规划

论文摘要

随着各个科技领域的进步,移动机器人应用越来越广泛,移动机器人的研究与开发也越来越受到人们的重视。在移动机器人的研究中,路径规划是很关键的问题之一。它是机器人执行各种任务的基础,反映了机器人在运动过程中与周围环境交互的能力。移动机器人在动态环境下的路径规划尤具现实意义。本文主要研究了分层强化学习理论及其解决移动机器人在未知动态环境中的路径规划问题,具体完成的工作有:(1)分析了一般的路径规划方法,研究了从强化学习理论到分层强化学习理论的实现。(2)提出分层强化学习的分层框架。将路径规划系统由高到下分为三层,下层为上层提供服务,且对上层透明,因而易于扩展,降低了在连续状态和动作空间下学习的难度。每层的决策通过相应机器学习实现,以下一层的学习结果为基础,同时,这种方法避免了手工编码所带来的局限性。(3)研究了Q学习的基本原理和算法,针对Q学习收敛速度较慢的缺点,采用局部泛化的CMAC神经网络改进Q学习算法,克服了Q学习收敛速度慢的缺点。在调整CMAC网络权值时,充分考虑已学习数据的可信任度,有效地实现了在复杂环境中的局部路径规划,并且效果明显。在此基础上实现了基于CMAC的MAXQ算法,非常适合机器人动态在线实时控制。(4)把复杂环境中的障碍物分解为静态的凸形障碍物和凹形障碍物,以及不同运动方向的动态障碍物,给出不同类型障碍物的避障方法,成功地解决了复杂障碍物环境下基于分层强化学习的移动机器人的局部路径规划问题。利用VC++在电脑上完成了仿真软件的编写,加入各种学习算法得出仿真结果,证明了这种算法的有效性。仿真实验表明,分层强化学习适合于复杂环境下的路径规划。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 移动机器人简介
  • 1.2 移动机器人路径规划的意义
  • 1.3 移动机器人路径规划研究综述
  • 1.4 路径规划研究现状
  • 1.4.1 传统路径规划方法
  • 1.4.2 智能路径规划方法
  • 1.5 目前路径规划发展趋势及存在的问题
  • 1.6 本文的主要工作
  • 第2章 分层强化学习的理论研究
  • 2.1 引言
  • 2.2 强化学习理论基础
  • 2.2.1 马尔可夫决策论
  • 2.2.2 强化学习的基本思想
  • 2.2.3 强化学习的主要算法
  • 2.3 分层强化学习理论
  • 2.3.1 半马尔可夫决策过程
  • 2.3.2 分层与抽象
  • 2.3.3 分层强化学习基本原理
  • 2.4 分层强化学习基本算法
  • 2.4.1 Option学习算法
  • 2.4.2 HAM学习算法
  • 2.4.3 MAXQ学习算法
  • 2.5 本章小结
  • 第3章 分层框架设计及路径规划
  • 3.1 引言
  • 3.2 分层强化学习的层框架设计
  • 3.2.1 总体层框架
  • 3.2.2 决策策略框架
  • 3.2.3 三个层次的设计
  • 3.3 自底向上的学习过程及自顶向下决策过程
  • 3.3.1 自底向上的分层强化学习方法
  • 3.3.2 自顶向下的决策过程
  • 3.3.3 相关问题讨论
  • 3.4 路径规划模型设计
  • 3.4.1 总体设计
  • 3.4.2 机器人传感器模型
  • 3.4.3 机器人环境模型
  • 3.4.4 层次输入输出变量
  • 3.4.5 层次强化信号的选择
  • 3.4.6 动作选择策略
  • 3.5 机器人的训练仿真
  • 3.5.1 静态环境中的训练
  • 3.5.2 动态环境中的训练
  • 3.5.3 混合环境中的训练
  • 3.6 本章小结
  • 第4章 基于神经网络的分层强化学习改进
  • 4.1 CMAC神经网络原理
  • 4.1.1 CMAC神经网络简介
  • 4.1.2 CMAC网络的结构
  • 4.1.3 CMAC学习方法
  • 4.2 基于CMAC改进的Q学习算法
  • 4.2.1 改进CMAC的学习算法
  • 4.2.2 基于CMAC的Q学习算法改进
  • 4.3 MAXQ分层强化学习模型与算法
  • 4.3.1 分层结构模型
  • 4.3.2 评价函数分解结构
  • 4.3.3 基于CMAC的MAXQ算法
  • 4.4 应用于路径规划的MAXQ研究
  • 4.4.1 基于MAXQ的路径规划
  • 4.4.2 应用于路径规划的MAXQ算法描述
  • 4.5 两种算法比较
  • 4.5.1 静态环境中的算法比较
  • 4.5.2 动态环境中的算法比较
  • 4.6 本章小结
  • 第5章 移动机器人的局部路径规划研究
  • 5.1 引言
  • 5.2 障碍物模型描述
  • 5.2.1 静态障碍物类型
  • 5.2.2 动态障碍物类型
  • 5.3 不同类型障碍物避障方法
  • 5.3.1 凸形静态障碍物环境下避障方法
  • 5.3.2 凹形障碍物环境下的避障方法以及仿真
  • 5.3.3 动态障碍物的避障
  • 5.4 复杂环境中的路径规划
  • 5.4.1 程序流程设计
  • 5.4.2 复杂环境中基于不同策略的路径规划实验
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].购物中心出口障碍物对应急疏散的影响[J]. 消防科学与技术 2020(01)
    • [2].双重障碍物对开闸式异重流运动特性的影响[J]. 同济大学学报(自然科学版) 2020(02)
    • [3].平板障碍物通道形状对油气爆炸传播特性影响[J]. 化工学报 2020(04)
    • [4].一种精密进近航段障碍物评估系统的设计与实现[J]. 中国民航飞行学院学报 2020(02)
    • [5].通道中障碍物布局对行人运动影响的多格子模型研究[J]. 火灾科学 2019(04)
    • [6].考虑跨越障碍物行为的元胞自动机模型[J]. 中国安全科学学报 2020(04)
    • [7].水平喷射火撞击垂直障碍物的温度特性研究[J]. 消防科学与技术 2020(05)
    • [8].拉各斯轻轨跨海桥水下障碍物打捞技术研究[J]. 工程技术研究 2020(16)
    • [9].基于稀疏深度影像分析的行车障碍物侦测技术[J]. 企业技术开发 2017(04)
    • [10].基于贝叶斯分类器的车载多类障碍物分类[J]. 信息技术 2016(01)
    • [11].脑卒中患者跨越不同高度障碍物的运动学分析[J]. 中国康复医学杂志 2015(04)
    • [12].赶飞机[J]. 创新作文(小学版) 2019(10)
    • [13].绑脚踢球[J]. 小学阅读指南(一二年级版) 2012(06)
    • [14].孩子摔哭你会打地吗[J]. 健康博览 2009(11)
    • [15].菲律宾青少年爱“跑酷”[J]. 小读者 2009(10)
    • [16].水五则[J]. 小作家选刊 2009(03)
    • [17].两点都不能到达障碍物之间距离的测量[J]. 中学生数学 2010(03)
    • [18].管道内障碍物对高压氢泄漏自燃特性的影响研究[J]. 中国安全科学学报 2020(09)
    • [19].有障碍物通道内双向行人流的自组织现象[J]. 上海大学学报(自然科学版) 2020(03)
    • [20].基于分支定界法的机场终端区单一进离场程序设计优化[J]. 计算机科学 2020(S1)
    • [21].我叙述中的障碍物[J]. 扬子江评论 2018(01)
    • [22].多个障碍物散射问题解的存在性与唯一性[J]. 新乡学院学报 2016(09)
    • [23].障碍物遮挡对天线性能的影响[J]. 电子科技 2014(12)
    • [24].基于单目视觉的障碍物定位和测量[J]. 机械制造与自动化 2015(01)
    • [25].别慌搬动障碍物[J]. 幸福(婚姻) 2010(12)
    • [26].海上平台直升机甲板限制障碍物区与无障碍物区范围探讨及建议[J]. 中国海上油气 2013(04)
    • [27].浅谈磁力仪结合多波束测深系统寻找海底金属障碍物的应用技术[J]. 航海 2020(01)
    • [28].一种六轮机构通过梯形障碍物的静力学分析[J]. 现代制造技术与装备 2020(06)
    • [29].基于碰撞预测的障碍物社会力修正模型[J]. 新乡学院学报 2017(12)
    • [30].障碍物对甲烷水平喷射火燃烧特性的影响[J]. 中国安全生产科学技术 2018(07)

    标签:;  ;  ;  ;  

    基于分层强化学习的移动机器人路径规划
    下载Doc文档

    猜你喜欢