基于增强学习的移动机器人运动控制研究

基于增强学习的移动机器人运动控制研究

论文摘要

增强学习(Reinforcement learning:RL)是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增强学习强调在与环境的交互中进行学习,以极大化(或极小化)从环境获得的评价性反馈信号为学习目标,因此增强学习在求解无法获得教师信号的复杂优化决策问题中具有广泛的应用前景。作为移动机器人系统的一项关键技术,运动控制的目标是实现机器人位姿对期望轨迹或路径的快速精确跟踪。由于环境的复杂性以及动力学模型的不确定性,移动机器人运动控制器的优化设计仍然是目前研究的难点和热点之一。本文在研究探索面向连续空间优化决策问题的高效增强学习方法的基础上,研究了基于增强学习的移动机器人运动控制器优化设计方法。具体完成的主要工作包括:(1)对增强学习的近似策略迭代方法进行了分析研究。针对最小二乘策略迭代(Least-Squares Policy Iteration:LSPI)增强学习算法中的值函数逼近问题,提出了一种采用相关分析的线性基函数自动选择方法,实现了多项式基函数的自动选择,提高了值函数逼近器的逼近精度和泛化性能,从而改善了学习算法的性能。(2)提出了一种基于近似策略迭代的移动机器人路径跟随控制器设计方法。通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用近似策略迭代算法(包括LSPI和Kernel-based LSPI:KLSPI)实现控制器参数的自学习优化。其中,KLSPI算法在策略评价中应用核方法进行特征选择和值函数逼近,从而提高了泛化性能和学习效率。(3)在P3-AT型轮式移动机器人实验平台上进行了基于增强学习的路径跟随控制研究。将移动机器人实际采样数据作为学习样本,采用增强学习的近似策略迭代算法优化控制策略,从而实现了路径跟随控制器的优化设计,实验结果验证了本文方法的有效性。(4)将以上研究成果推广应用到多机器人编队控制问题中,设计了一种结合距离-角度(l-φ)反馈控制与增强学习的多机器人队形保持控制器。通过应用LSPI和KLSPI等近似策略迭代算法实现(l-φ)反馈控制中参数向量的学习优化,并在多机器人仿真与实验环境中对以上方法进行了测试。本文研究工作一方面对增强学习算法的基函数选择问题进行了探讨和改进,另一方面,有利于推进增强学习在移动机器人运动控制等不确定优化决策问题中的应用。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 基于增强学习的优化控制方法
  • 1.1.2 移动机器人系统的发展概述及其关键技术
  • 1.2 增强学习的研究现状与发展趋势
  • 1.2.1 增强学习算法的研究进展
  • 1.2.2 增强学习应用的研究进展
  • 1.3 移动机器人运动控制的研究概况
  • 1.3.1 移动机器人运动控制方法研究概述
  • 1.3.2 多机器人编队控制问题
  • 1.3.3 多机器人编队控制的研究进展
  • 1.4 本文主要研究工作
  • 1.4.1 本文的主要研究内容及组织结构
  • 1.4.2 论文的主要贡献
  • 第二章 增强学习的近似策略迭代方法及其改进
  • 2.1 Markov决策过程
  • 2.1.1 Markov链
  • 2.1.2 Markov决策过程
  • 2.2 近似策略迭代算法的理论框架
  • 2.2.1 近似策略迭代和时域差值学习
  • 2.2.3 最小二乘策略迭代算法
  • 2.2.3 基于核的最小二乘策略迭代算法
  • 2.3 采用基函数自动选择的改进LSPI算法
  • 2.3.1 多项式基函数
  • 2.3.2 基函数相关分析
  • 2.3.3 仿真实例
  • 2.4 本章小结
  • 第三章 基于近似策略迭代的移动机器人控制器设计与实现
  • 3.1 轮式移动机器人特性分析
  • 3.1.1 轮式移动机器人动力学分析
  • 3.1.2 轮式移动机器人反馈控制器设计分类
  • 3.1.3 轮式移动机器人约束分析
  • 3.2 双轮驱动移动机器人的学习控制器设计仿真研究
  • 3.2.1 问题描述
  • 3.2.2 双轮驱动移动机器人的学习控制器设计
  • 3.2.3 仿真结果
  • 3.3 轮式移动机器人的路径跟随学习控制实验研究
  • 3.3.1 P3-AT型移动机器人的学习控制任务
  • 3.3.2 样本的采集
  • 3.3.3 直线跟随实验
  • 3.3.4 曲线跟随实验
  • 3.4 本章小结
  • 第四章 增强学习在多机器人编队控制中应用研究
  • 4.1 多机器人编队问题概述
  • 4.1.1 多机器人编队主要研究内容
  • 4.1.2 多机器人编队的优点
  • 4.2 基于增强学习的多机器人队形保持控制器设计
  • 4.2.1 多机器人编队问题描述
  • 4.2.2 基于距离角度信息的l-φ反馈控制方法
  • 4.2.3 基于l-φ控制与增强学习的队形保持控制器设计
  • 4.3 多机器人队形保持控制仿真与实验
  • 4.3.1 多机器人仿真平台的设计
  • 4.3.2 多机器人编队仿真与实验研究
  • 4.4 本章小结
  • 第五章 总结与展望
  • 5.1 本文工作总结
  • 5.2 今后工作展望
  • 致谢
  • 参考文献
  • 作者在攻读硕士学位期间完成和发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    基于增强学习的移动机器人运动控制研究
    下载Doc文档

    猜你喜欢