论文摘要
增强学习(Reinforcement learning:RL)是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增强学习强调在与环境的交互中进行学习,以极大化(或极小化)从环境获得的评价性反馈信号为学习目标,因此增强学习在求解无法获得教师信号的复杂优化决策问题中具有广泛的应用前景。作为移动机器人系统的一项关键技术,运动控制的目标是实现机器人位姿对期望轨迹或路径的快速精确跟踪。由于环境的复杂性以及动力学模型的不确定性,移动机器人运动控制器的优化设计仍然是目前研究的难点和热点之一。本文在研究探索面向连续空间优化决策问题的高效增强学习方法的基础上,研究了基于增强学习的移动机器人运动控制器优化设计方法。具体完成的主要工作包括:(1)对增强学习的近似策略迭代方法进行了分析研究。针对最小二乘策略迭代(Least-Squares Policy Iteration:LSPI)增强学习算法中的值函数逼近问题,提出了一种采用相关分析的线性基函数自动选择方法,实现了多项式基函数的自动选择,提高了值函数逼近器的逼近精度和泛化性能,从而改善了学习算法的性能。(2)提出了一种基于近似策略迭代的移动机器人路径跟随控制器设计方法。通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用近似策略迭代算法(包括LSPI和Kernel-based LSPI:KLSPI)实现控制器参数的自学习优化。其中,KLSPI算法在策略评价中应用核方法进行特征选择和值函数逼近,从而提高了泛化性能和学习效率。(3)在P3-AT型轮式移动机器人实验平台上进行了基于增强学习的路径跟随控制研究。将移动机器人实际采样数据作为学习样本,采用增强学习的近似策略迭代算法优化控制策略,从而实现了路径跟随控制器的优化设计,实验结果验证了本文方法的有效性。(4)将以上研究成果推广应用到多机器人编队控制问题中,设计了一种结合距离-角度(l-φ)反馈控制与增强学习的多机器人队形保持控制器。通过应用LSPI和KLSPI等近似策略迭代算法实现(l-φ)反馈控制中参数向量的学习优化,并在多机器人仿真与实验环境中对以上方法进行了测试。本文研究工作一方面对增强学习算法的基函数选择问题进行了探讨和改进,另一方面,有利于推进增强学习在移动机器人运动控制等不确定优化决策问题中的应用。
论文目录
相关论文文献
标签:移动机器人论文; 动力学模型论文; 运动控制论文; 非完整系统论文; 机器学习论文; 增强学习论文; 策略迭代论文; 马尔可夫决策过程论文; 近似策略迭代论文;