策略梯度增强学习的理论、算法及应用研究

论文摘要

增强学习（Reinforcement Learning）又称为强化学习或再励学习,是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增强学习不需要给定输入状态下的期望输出,而强调在与环境的交互中进行学习,以极大化（或极小化）从环境获得的评价性反馈信号为学习目标,因此增强学习在求解无法获得教师信号的复杂优化与决策问题中具有广泛的应用前景。作为增强学习领域的一个重要研究方向,策略梯度（Policy gradient）方法克服了基于值函数（Value function）的增强学习算法不能保证收敛、难于引入先验知识等缺陷。但是另一方面,由于在梯度估计过程中方差过大,使得策略梯度算法收敛速度很慢,成为策略梯度增强学习被广泛应用的一个障碍。为此,本文在国家自然科学基金重点项目“未知环境中移动机器人导航控制的理论与方法研究（60234030）”的资助下,重点研究策略梯度增强学习理论、算法及其在月球车运动控制中的应用。在分析了策略梯度增强学习理论框架的基础上,主要研究了两类提高策略梯度学习算法收敛性能的方法,即:回报基线方法和引入先验知识的方法。其中,回报基线方法能够有效地降低策略梯度增强学习的梯度估计方差;而通过引入先验知识不仅可以提高策略梯度增强学习算法的收敛速度,还能克服在学习初期因为初始化策略的随机性而带来的缺陷。文中针对月球车运功控制中的多轮协调问题,提出了一种基于混合策略梯度增强学习的自适应控制方法。本文的创新点和研究成果主要包括:1、在策略梯度增强学习理论框架的研究中,证明了现有策略梯度增强学习算法的梯度估计公式都符合统一的形式。并且在上述理论框架的指导下,对现有的策略梯度算法进行了推广。2、针对部分可观测马氏决策过程（POMDP）,研究了策略梯度增强学习中的回报基线方法。提出了一种求解最优回报基线的方法,使得策略梯度估计的方差减小到最小。文中对最优回报基线的性质进行了理论证明,并且提出了一种新的求解POMDP的策略梯度学习算法-Istate-Grbp,该算法通过利用回报基线,减小了梯度估计的方差。仿真实验结果表明,通过减小方差,算法能够有效地提高收敛速度。3、研究了利用模糊推理系统引入先验知识的策略梯度增强学习算法。本文分别针对具有离散行为空间和连续行为空间的马氏决策问题,提出了两种模糊策略梯度增强学习方法（Fuzzy Policy Gradient: FPG）。因为在模糊规则的制定过程中,难以确定的往往是后件参数,因此在本文提出的两种模糊策略梯度算法中,都是利用策略梯度方法调整模糊规则的后件参数。文中证明了这两种模糊策略梯度算法的收敛性,仿真实验表明了算法的有效性。4、提出了利用支持向量机（Support Vector Machine: SVM）引入先验知识的混合策略梯度增强学习方法PG-SVM。PG-SVM算法在策略梯度增强学习的框架下利用SVM来进行初始策略的学习和逼近,从而可以通过训练样本数据来自动引入先验知识。与已有方法相比,PG-SVM算法具有以下几个优点:（1）只要是能够提供样本点的先验知识,就可以很容易地结合到算法中来;（2）在线的策略梯度增强学习算法可以克服学习过程中的各种不确定性;（3）策略函数的结构可以通过SVM算法来确定,因而是数据驱动的,而不是预先定义的。5、针对月球车运动控制中的多轮协调问题,提出了一种基于混合策略梯度增强学习的自适应控制方法。由于月球车本身结构的复杂性,基于模型的经典控制将会有很大的困难,并且经典控制还需要在线估计地形的各种参数。针对这种导师信号难以获取、模糊规则难以制定的复杂优化控制问题,本文提出了一种基于混合式策略梯度增强学习PG-SVM的多轮协调控制方法。对于这种具有高维连续状态和行为空间的复杂问题,以往的增强学习算法不仅特别耗时,并且还需要利用仿真环境。这不仅需要月球车的动力学模型,还需要对月球车的行驶环境进行模拟。而本文提出的PG-SVM增强学习控制方法通过利用基于训练数据的先验知识,极大地缩短了学习时间,并且保证了在学习过程中的在线性能。这使得学习过程可以完全在实车上进行,不需要任何的仿真环境,这对推动增强学习的实用化进程具有重要的意义。最后得到控制器的控制效果是令人满意的。本文的最后一章对今后进一步的研究方向进行了分析和展望。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.2 增强学习的发展现状

1.2.1 增强学习算法的发展概况

1.2.2 策略梯度增强学习算法

1.2.3 增强学习应用的研究进展

1.3 月球漫游车技术发展概况

1.3.1 国外月球车的研究现状

1.3.2 国内月球车的研究现状

1.3.3 月球车的关键技术

1.3.4 运动控制中的多轮协调

1.4 本文的主要研究内容、组织结构和主要贡献

1.4.1 本文的主要研究内容

1.4.2 论文的组织结构

1.4.3 论文的主要贡献

第二章策略梯度增强学习的理论框架

2.1 Markov 决策过程

2.1.1 Markov 链

2.1.2 Markov 决策过程

2.1.3 最优性准则

2.2 策略梯度增强学习

2.2.1 基本概念和基本理论

2.2.2 策略梯度算法的收敛条件

2.2.3 策略梯度增强学习的统一理论框架

2.2.4 现有策略梯度算法的推广

2.3 小结

第三章策略梯度增强学习中的最优回报基线

3.1 部分可观测Markov 决策模型及其信度状态

3.1.1 部分可观测Markov 决策模型

3.1.2 信度状态

3.1.3 基于信度状态的Markov 决策过程

3.1.4 信度状态MDP 的值函数及其性质

3.2 POMDP 的无记忆策略

3.2.1 无记忆策略的振荡问题

3.2.2 求解POMDP 问题的CPnSarsa（λ）算法

3.2.3 仿真实验与讨论

3.3 策略梯度算法中的最优回报基线

3.3.1 内部状态和POMDP 的参数化策略

3.3.2 策略梯度增强学习中的最优回报基线

3.3.3 仿真实验与讨论

3.4 小结

第四章融合先验知识的策略梯度增强学习算法

4.1 模糊策略梯度增强学习

4.1.1 离散行为模糊策略梯度增强学习

4.1.2 连续行为模糊策略梯度算法

4.1.3 模糊策略梯度算法的收敛性

4.1.4 仿真实验与讨论

4.2 结合SVM 的策略梯度增强学习算法

4.2.1 SVM 基本理论

4.2.2 离散行为PG-SVM 算法

4.2.3 连续行为PG-SVM 算法

4.2.4 收敛性证明

4.2.5 最优性分析

4.2.6 仿真实验与讨论

4.3 小结

第五章策略梯度算法在月球车运动控制中的应用

5.1 月球车结构与运动控制特点

5.2 平坦硬质地面控制准则

5.2.1 瞬时转向中心

5.2.2 控制法则的建立

5.3 先验知识的获取

5.3.1 正常情况下速度/电流的比值

5.3.2 非正常情况下速度/电流的比值

5.4 利用PG-SVM 混合增强学习的自适应优化控制

5.5 小结

第六章总结与展望

致谢

参考文献

作者在学期间取得的学术成果

策略梯度增强学习的理论、算法及应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢