多移动机器人运动控制策略的强化学习研究

多移动机器人运动控制策略的强化学习研究

论文题目: 多移动机器人运动控制策略的强化学习研究

论文类型: 博士论文

论文专业: 物理海洋学

作者: 庄晓东

导师: 孟庆春,贺明霞

关键词: 多移动机器人,路径规划,强化学习,模糊建模,蚁群优化算法

文献来源: 中国海洋大学

发表年度: 2005

论文摘要: 多移动机器人是机器人研究的主要内容之一,路径规划、运动控制是移动机器人完成各种任务的关键。采用机器学习特别是强化学习方法实现多机器人环境中路径规划和运动控制,是近年来机器人研究的热点。本论文研究了多机器人环境中运动控制策略的强化学习,本文的研究工作主要从四个方面展开:动态环境中的建模规划、多障碍环境中的运动控制策略学习和优化、强化学习方法的改进研究、基于多机器人仿真实验平台的策略强化学习研究。 在动态环境中的机器人控制研究中,提出了一种基于模糊概念和可能性理论的环境建模方法,在此基础上进行模糊决策,有效的实现动态运动控制,获得高效的实时、避障规划效果。 在多障碍环境中的移动机器人路径规划方面,提出了人工势场法和蚁群优化算法相结合的路径规划方法,将人工势场作为先验知识,对蚁群优化算法进行初始化,和已有的蚁群路径规划算法相比,显著提高了规划速度。 在对强化学习方法的改进方面,针对传统算法在大状态空间中学习效率低的问题,提出针对模糊状态的强化学习算法(FSRL),并基于模糊状态实现离散状态空间中的多尺度学习;考察蚁群优化算法的状态相关性特点,在时间学习尺度上对传统算法进行改进,提出蚁群强化学习算法(RAL)和延迟优化学习算法(DORL);并应用于多障碍环境路径规划,和基于传统强化学习的路径规划方法相比,显著提高了规划性能。 根据实际应用时环境状态的不确定性、学习过程中策略的不确定性,在随机变量熵的概念下,提出强化学习中的决策熵,来定量度量学习过程中策略的不确定性(即策略收敛程度);提出强化学习中的状态熵,来描述观测状态信息不完整引起的不确定性;基于决策熵,提出具有自适应学习率的学习算法,通过多障碍环境路径规划仿真实验,表明自适应学习率有效的提高了学习性能。 基于TeamBots多机器人仿真实验平台,进行了多机器人目标搜索和机器人足球的策略学习实验,应用改进的自适应学习率方法成功实现多移动机器人环境中的控制策略学习,并且足球机器人仿真实验中,通过强化学习实现了机器人之间的协作分工。

论文目录:

1 绪论

1.1 多机器人系统的研究概述

1.2 多移动机器人环境中的运动控制研究概述

1.3 强化学习的研究与应用概述

1.3.1 强化学习方法

1.3.1.1 马尔可夫决策过程(Markov Decision Process)

1.3.1.2 强化学习中策略的评价

1.3.1.3 强化学习的要素

1.3.1.4 强化学习的过程

1.3.2 强化学习的研究进展

1.4 本论文的主要工作

2 动态环境中的模糊建模和规划及运动控制策略强化学习

2.1 本章概述

2.2 动态环境中基于模糊概念的环境建模和运动控制

2.2.1 基于模糊集合的环境建模

2.2.2 基于模糊环境模型的方向决策

2.2.3 运动控制的流程和计算机仿真实验结果及分析

2.3 动态环境中基于强化学习的运动控制策略自学习

2.3.1 使用模式增强网络估计决策参数

2.3.2 运动控制策略学习过程

2.3.3 计算机仿真实验结果及分析

2.4 本章结论

3 基于模糊状态的强化学习算法

3.1 本章概述

3.2 基于模糊状态的强化学习算法

3.2.1 模糊概念和模糊状态

3.2.2 模糊状态对学习性能的改进

3.2.3 机器人二维工作空间中的模糊状态的定义

3.3 多障碍环境中基于FSRL的路径规划

3.3.1 多障碍环境中路径规划的马尔可夫决策过程模型

3.3.2 基于FSRL的路径规划与人工势场方法

3.3.3 自学习路径规划

3.3.4 计算机仿真实验结果及分析

3.4 基于蚁群优化算法的多障碍环境中的路径优化规划

3.4.1 蚁群优化算法

3.4.2 基于人工势场初始化和蚁群算法的路径优化规划

3.4.2.1 初始解对蚁群算法性能的影响

3.4.2.2 基于人工势场的路径强度初始化

3.4.2.3 基于蚁群算法的势场优化和路径规划

3.4.3 计算机仿真实验及结果分析

3.4.3.1 基于蚁群算法的优化规划和人工势场法的实验结果比较

3.4.3.2 人工势场作为先验知识对路径优化效率的提高

3.5 本章结论

4 基于学习尺度的改进强化学习算法

4.1 本章概述

4.2 基于模糊状态的多尺度强化学习

4.2.1 强化学习的学习尺度

4.2.2 基于模糊状态的离散状态空间中的学习尺度

4.2.3 不同学习尺度下强化学习的性能

4.2.4 基于模糊状态的多尺度强化学习

4.3 蚁群强化学习算法及延迟优化强化学习

4.3.1 蚁群强化学习算法

4.3.2 延迟优化强化学习算法

4.4 本章结论

5 强化学习中的决策熵和状态熵

5.1 本章概述

5.2 离散状态空间中的决策熵

5.2.1 随机变量的熵

5.2.2 局部决策熵和全局决策熵

5.2.3 全局决策熵作为学习过程中策略收敛程度的度量

5.3 基于决策熵的自适应学习率调整

5.3.1 不同学习率下的学习性能

5.3.2 基于决策熵的自适应学习率

5.3.3 基于局部决策熵的自适应学习率强化学习算法

5.4 强化学习中度量观测状态信息不完整性的状态熵

5.4.1 强化学习中观测信息的不完整性

5.4.2 强化学习中观测状态的先验状态熵和后验状态熵

5.5 本章结论

6 基于TeamBots仿真实验平台的多移动机器人控制策略学习

6.1 本章概述

6.2 TeamBots多移动机器人仿真实验平台简介

6.3 多机器人目标搜索任务的策略学习

6.3.1 目标搜索任务简介

6.3.2 机器人目标搜索的控制行为设计

6.3.3 机器人目标搜索策略的变学习率强化学习

6.3.4 多机器人目标搜索实验及结果分析

6.4 机器人足球任务的策略学习

6.4.1 足球机器人简介

6.4.2 SoccerBots足球机器人仿真平台

6.4.3 足球机器人的控制行为设计

6.4.4 足球机器人控制策略的变学习率强化学习

6.5 本章结论

7 总结与展望

致谢

参考文献

附录:博士研究生阶段所发表的论文

发布时间: 2005-10-26

参考文献

  • [1].基于不确定性分析的移动机器人室内定位与导航控制方法研究[D]. 张启彬.中国科学技术大学2018
  • [2].可重构多模式地面移动机器人的构型设计与性能研究[D]. 李晔卓.北京交通大学2018
  • [3].社会环境的轮式移动机器人定位导航方法研究[D]. 陈伟华.华南理工大学2018
  • [4].特种地面移动机器人机械系统设计与分析[D]. 欧屹.南京理工大学2013
  • [5].多移动机器人协作方法研究[D]. 姜健.哈尔滨工业大学2008
  • [6].一种球形移动机器人的运动分析与控制技术的研究[D]. 刘大亮.北京邮电大学2009
  • [7].移动机器人基于多传感器数据融合的定位及地图创建研究[D]. 庄严.大连理工大学2004
  • [8].虚拟现实技术在移动机器人遥操作系统中的应用研究[D]. 葛为民.天津大学2004
  • [9].基于互联网的移动机器人网络控制系统研究[D]. 孙启湲.天津大学2004
  • [10].多移动机器人协调控制系统的研究与实现[D]. 程磊.华中科技大学2005

标签:;  ;  ;  ;  ;  

多移动机器人运动控制策略的强化学习研究
下载Doc文档

猜你喜欢