基于人工势场的激励学习问题研究

基于人工势场的激励学习问题研究

论文摘要

激励学习因具有较强的在线自适应性和对复杂系统的自学习能力,备受机器人导航研究者的关注。但其在连续状态和动作空间的泛化,局部环境的反应式控制,大状态空间和部分可观测环境定性导航等都存在着亟待解决的问题,且用传统的算法很难满意地解决这些问题。本文利用人工势场和激励学习的优点针对机器人在较大状态空间和部分可观测环境下的导航问题进行了研究。本文首先对激励学习研究现状,课题研究的背景和现实意义进行了综述性介绍,并分析了当前激励学习中两种比较成熟的方法,瞬时差分法和Q学习方法。其次,研究了人工势场中斥力势函数和引力势函数的选取,人工势场法的优缺点。然后重点研究了如何将激励学习模型转换成人工势场模型,即利用激励学习和人工势场的优点应用虚拟水流法如何构建一个具有记忆学习功能的激励势场模型。最后,用三个著名的网格世界问题对激励势场模型进行了测试,同时在较大状态空间中用Q学习和HQ学习等方法做了对比实验。实验结果表明:对较大状态空间和部分可观测环境新方法都能简洁有效地给出理想的解;与Q学习和HQ学习等方法相比激励势场模型更稳定有效。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 本文研究的背景
  • 1.2 激励学习理论与应用综述
  • 1.2.1 激励学习研究的背景
  • 1.2.2 激励学习算法的研究进展
  • 1.2.3 激励学习的泛化方法研究概况
  • 1.2.4 激励学习的理论与应用研究进展
  • 1.2.5 存在的问题和本文的研究重点
  • 1.3 本文内容组织结构
  • 第二章 激励学习
  • 2.1 激励学习的理论基础及基本概念
  • 2.1.1 马尔可夫决策过程
  • 2.1.2 激励学习的几个基本概念
  • 2.1.3 激励学习的模型
  • 2.1.4 激励学习的目标函数或优化标准
  • 2.2 激励学习的基本算法
  • 2.2.1 瞬时差分方法
  • 2.2.2 Q 学习算法
  • 2.2.3 Q 学习存在的问题
  • 第三章 人工势场
  • 3.1 人工势场
  • 3.2 势函数的选取
  • 3.2.1 斥力势函数的选取
  • 3.2.2 引力势函数的选取
  • 3.2.3 全局势场的生成
  • 3.3 应用人工势场法的优缺点
  • 3.3.1 人工势场法的优点
  • 3.3.2 人工势场法的缺点
  • 第四章 激励势场模型
  • 4.1 激励势场模型
  • 4.1.1 引力源与斥力源集合的定义
  • 4.1.2 引力势场的描述
  • 4.1.3 斥力势场的描述
  • 4.1.4 全局激励势场的生成
  • 4.2 虚拟水流法
  • 4.3 激励势场的算法
  • 第五章 实验仿真与结果分析
  • 5.1 完全可观测四房间网格环境
  • 5.1.1 问题描述
  • 5.1.2 模型描述
  • 5.1.3 应用激励势场模型进行实验的结果
  • 5.1.4 与Q 学习进行比较的实验结果
  • 5.2 部分可观测四房间网格世界环境
  • 5.2.1 问题描述
  • 5.2.2 模型描述
  • 5.2.3 应用激励势场模型进行实验的结果
  • 5.3 钥匙与门迷宫问题
  • 5.3.1 问题描述
  • 5.3.2 模型描述
  • 5.3.3 应用激励势场模型进行实验的结果
  • 5.3.4 与其它多种学习方法进行比较的实验结果
  • 结论与展望
  • 结论
  • 研究展望
  • 参考文献
  • 致谢
  • 附录(在学习期间完成的学术论文和参加的科研项目)
  • 相关论文文献

    • [1].智能网联环境下基于安全势场理论的车辆跟驰模型[J]. 中国公路学报 2019(12)
    • [2].基于概率势场的无人帆船实时路径规划研究[J]. 国外电子测量技术 2020(05)
    • [3].无线传感网中基于势场的能量收集均衡路径[J]. 网络新媒体技术 2014(06)
    • [4].势场演变情况讨论[J]. 大学物理 2012(10)
    • [5].基于势科学的企业家精神与企业外部环境多维势场融合分析[J]. 华东经济管理 2011(01)
    • [6].势场理论的多无人机协同路径规划方法[J]. 火力与指挥控制 2012(03)
    • [7].基于动态离散势场的迷宫机器人路径规划[J]. 计算机工程 2013(12)
    • [8].基于社会势场的群体机器人聚集队形控制[J]. 系统仿真学报 2009(04)
    • [9].基于势场的无人驾驶车辆最优路径规划算法[J]. 农业装备与车辆工程 2020(08)
    • [10].基于椭圆空腔虚拟势场的航天器集群控制方法[J]. 海军航空工程学院学报 2016(01)
    • [11].紧跟改革进程 汇聚拥护支持参与改革的强大势场[J]. 政工学刊 2016(11)
    • [12].用变分法研究势场V(r)中存在束缚态的条件[J]. 山东大学学报(理学版) 2009(05)
    • [13].结合模糊决策与势场栅格的智能小车路径规划[J]. 机械设计与制造 2020(04)
    • [14].具有势场启发因子的蚁群路径规划仿真[J]. 实验室研究与探索 2020(03)
    • [15].基于道路势场的车道偏离自动校正自适应控制[J]. 中国机械工程 2013(24)
    • [16].一维周期棘齿势场作用下玻色-爱因斯坦凝聚体的混沌[J]. 海南大学学报(自然科学版) 2011(04)
    • [17].以理想周期势场为基础的超导原理的探索——共有化自由能带假说[J]. 科技创新导报 2010(10)
    • [18].粒子在周期势场中运动的非线性效应[J]. 四川师范大学学报(自然科学版) 2010(04)
    • [19].基于量化的势场值在机器人路径规划中的应用[J]. 邵阳学院学报(自然科学版) 2018(05)
    • [20].基于混合势场的移动机器人视觉轨迹规划[J]. 浙江大学学报(工学版) 2016(07)
    • [21].改进的势场蚁群算法的移动机器人路径规划[J]. 计算机工程与应用 2015(22)
    • [22].一种基于威胁势场的A星路径规划算法[J]. 科技视界 2014(03)
    • [23].外势场作用下的玻色-爱因斯坦凝聚啁啾孤子的演化与操控[J]. 物理学报 2009(06)
    • [24].形势场相似计算方案的比较研究[J]. 气象研究与应用 2008(03)
    • [25].基于网格化势场的布雷弹封控效能分析[J]. 弹箭与制导学报 2016(04)
    • [26].解决路径规划局部极小问题的势场栅格法[J]. 机械设计与研究 2017(05)
    • [27].基于势场竞标的认知无线网络信道竞争算法[J]. 计算机应用研究 2015(10)
    • [28].基于广义势场的多机器人避碰算法[J]. 华南理工大学学报(自然科学版) 2010(01)
    • [29].零势场中变质量粒子的束缚能谱[J]. 物理学报 2010(11)
    • [30].构造信息势场的一个偏微分方程模型[J]. 河北科技大学学报 2010(06)

    标签:;  ;  ;  ;  ;  

    基于人工势场的激励学习问题研究
    下载Doc文档

    猜你喜欢