基于人工势场的激励学习问题研究

论文摘要

激励学习因具有较强的在线自适应性和对复杂系统的自学习能力,备受机器人导航研究者的关注。但其在连续状态和动作空间的泛化,局部环境的反应式控制,大状态空间和部分可观测环境定性导航等都存在着亟待解决的问题,且用传统的算法很难满意地解决这些问题。本文利用人工势场和激励学习的优点针对机器人在较大状态空间和部分可观测环境下的导航问题进行了研究。本文首先对激励学习研究现状,课题研究的背景和现实意义进行了综述性介绍,并分析了当前激励学习中两种比较成熟的方法,瞬时差分法和Q学习方法。其次,研究了人工势场中斥力势函数和引力势函数的选取,人工势场法的优缺点。然后重点研究了如何将激励学习模型转换成人工势场模型,即利用激励学习和人工势场的优点应用虚拟水流法如何构建一个具有记忆学习功能的激励势场模型。最后,用三个著名的网格世界问题对激励势场模型进行了测试,同时在较大状态空间中用Q学习和HQ学习等方法做了对比实验。实验结果表明:对较大状态空间和部分可观测环境新方法都能简洁有效地给出理想的解;与Q学习和HQ学习等方法相比激励势场模型更稳定有效。

论文目录

摘要

ABSTRACT

第一章引言

1.1 本文研究的背景

1.2 激励学习理论与应用综述

1.2.1 激励学习研究的背景

1.2.2 激励学习算法的研究进展

1.2.3 激励学习的泛化方法研究概况

1.2.4 激励学习的理论与应用研究进展

1.2.5 存在的问题和本文的研究重点

1.3 本文内容组织结构

第二章激励学习

2.1 激励学习的理论基础及基本概念

2.1.1 马尔可夫决策过程

2.1.2 激励学习的几个基本概念

2.1.3 激励学习的模型

2.1.4 激励学习的目标函数或优化标准

2.2 激励学习的基本算法

2.2.1 瞬时差分方法

2.2.2 Q 学习算法

2.2.3 Q 学习存在的问题

第三章人工势场

3.1 人工势场

3.2 势函数的选取

3.2.1 斥力势函数的选取

3.2.2 引力势函数的选取

3.2.3 全局势场的生成

3.3 应用人工势场法的优缺点

3.3.1 人工势场法的优点

3.3.2 人工势场法的缺点

第四章激励势场模型

4.1 激励势场模型

4.1.1 引力源与斥力源集合的定义

4.1.2 引力势场的描述

4.1.3 斥力势场的描述

4.1.4 全局激励势场的生成

4.2 虚拟水流法

4.3 激励势场的算法

第五章实验仿真与结果分析

5.1 完全可观测四房间网格环境

5.1.1 问题描述

5.1.2 模型描述

5.1.3 应用激励势场模型进行实验的结果

5.1.4 与Q 学习进行比较的实验结果

5.2 部分可观测四房间网格世界环境

5.2.1 问题描述

5.2.2 模型描述

5.2.3 应用激励势场模型进行实验的结果

5.3 钥匙与门迷宫问题

5.3.1 问题描述

5.3.2 模型描述

5.3.3 应用激励势场模型进行实验的结果

5.3.4 与其它多种学习方法进行比较的实验结果

结论与展望

结论

研究展望

参考文献

致谢

附录（在学习期间完成的学术论文和参加的科研项目）

基于人工势场的激励学习问题研究

论文摘要

论文目录

相关论文文献

猜你喜欢