分层强化学习算法及其应用研究

论文摘要

强化学习是人工智能和机器学习的一个重要研究领域。强化学习采用试错的方式与环境进行交互,根据环境对动作的评价性反馈信号改进行动方案以适应环境。强化学习具有良好的在线自适应性和对非线性系统的学习能力,因此在人工智能、机器学习和自动控制等领域中得到广泛研究和应用。但是在具有大规模状态空间或连续状态空间的任务中,强化学习也存在着学习效率低,收敛速度慢的问题。二十世纪九十年代提出的分层强化学习是提高强化学习的收敛速度的一种有效方法。而且分层强化学习的子任务策略可以复用,这一特点使得知识传递成为强化学习的当前研究热点。本文主要研究分层强化学习以及分层强化学习的知识传递方法。研究内容包括两大部分：第一部分主要研究如何改进分层强化学习,加快算法在单个任务中的收敛速度。第二部分主要研究在状态转移概率与系统参数相关的任务中,分层强化学习如何有效获得与参数无关的知识,用知识传递加快算法在多个任务中的收敛速度。本文的主要研究工作和创新性体现在以下三个方面：第一,提出一种基于稳定状态空间的强化学习算法,通过减少所需探索和学习的状态空间来提高强化学习的收敛速度。为获得系统局部稳定状态空间的最优策略,提出一种状态预评估准则,并且修正算法的报酬信号,保证稳定状态空间的状态能独立收敛。为将探索过程集中于稳定状态空间中,提出基于状态预评估准则和动作连续性准则的探索策略。算法的学习时间仅随局部稳定状态空间的增加呈指数增长,因此有效地缓解了强化学习的维数灾难问题。将算法用于实际系统控制时,本文发现在倒立摆系统控制任务中,强化学习存在极限环问题,算法的控制策略不稳定。提出基于平衡状态的极限环检测方法,解决强化学习的极限环问题。本文算法能获得稳定的控制策略,为分层强化学习进一步获取知识提供了基础。第二,提出一种基于定性模型的分层Option算法和分步探索策略,解决强化学习探索策略的探索和利用问题。根据系统控制任务的特点,本文定义定性动作,并提出基于状态路径的次优定性动作判断准则。分步探索策略利用该准则首先选择次优定性动作,执行“利用”；然后从次优定性动作中选择元动作探索,在“利用”的基础上执行“探索”。这种分步探索策略不仅用层次化的方法有效地协调算法在全局和局部状态空间之间的探索和学习,而且解决了常用的分时探索策略所存在的问题。算法将知识传递和系统控制任务放在不同层次的子任务中完成,其层次化结构有利于算法抽取不同参数值的系统所具有的共同特征,为实现分层强化学习的知识传递提供了条件。第三,提出一种基于定性模糊网络的Option算法,解决常用知识传递方法难以用于状态转移概率随系统参数变化的任务中的问题。算法建立系统的定性模型,描述不同参数值的系统所具有的共同特征,将参数相关任务转变为参数无关任务。提出一种定性模糊网络学习基于定性模型的次优策略,抽取次优策略的特征获取与参数无关的知识。在系统参数变化较大的任务中,提出基于状态路径的报酬信号动态调整定性模糊网络,使定性模糊网络经过少量学习和修正后能适用于各种新参数值的同类任务。这种基于定性模型的知识传递方法能有效地描述参数值不同的系统所具有的共同控制规律,解决常用知识传递方法的参数敏感性问题,将常用知识传递方法从参数无关任务扩展到参数相关任务中。

论文目录

致谢

摘要

ABSTRACT

1 绪论

1.1 研究的背景和意义

1.1.1 强化学习的动物学习心理学背景

1.1.2 强化学习的特点

1.1.3 基于强化学习的智能控制方法

1.2 强化学习的研究现状

1.2.1 强化学习的四个要素的改进

1.2.2 分层强化学习

1.2.3 知识传递

1.3 强化学习存在的问题及解决方法

1.3.1 在复杂系统控制中强化学习的学习效率问题

1.3.2 常用的的解决方法及其缺陷

1.4 本文的主要研究内容和创新点

1.5 本文的组织结构

2 强化学习概述和倒立摆系统介绍

2.1 强化学习

2.1.1 强化学习的MDP模型

2.1.2 强化学习的最优策略

2.1.3 强化学习的值迭代方法

2.2 强化学习的主要算法

2.2.1 TD算法

2.2.2 AHC算法

2.2.3 Q学习算法

2.3 分层强化学习

2.3.1 分层强化学习的SMDP模型

2.3.2 分层强化学习的最优策略

2.4 分层强化学习的主要算法

2.4.1 Option算法

2.5 倒立摆系统和相关研究

2.5.1 倒立摆系统简介

2.5.2 倒立摆的数学模型

2.5.3 倒立摆状态空间方程

2.5.4 强化学习算法控制倒立摆的相关研究

2.6 小结

3 倒立摆控制中强化学习的极限环问题

3.1 引言

3.2 倒立摆系统控制中控制策略不稳定现象

3.2.1 "非平衡位置控制"问题

3.2.2 "策略遗忘"问题

3.3 倒立摆系统控制中极限环的问题

3.3.1 极限环的基本概念

3.3.2 极限环对不同应用任务的影响

3.4 策略遗忘和非平衡位置控制问题的产生原因

3.5 极限环问题被忽视的原因

3.6 解决极限环问题的方法

3.7 小结

4 基于稳定状态空间的强化学习算法

4.1 引言

4.2 在系统控制任务中常用算法的学习效率低问题

4.2.1 状态值泛化对算法收敛的影响

4.2.2 报酬信号对算法收敛的影响

4.2.3 随机探索策略对学习效率的影响

4.3 算法的基本思想

4.4 基于稳定状态空间的状态更新方法

4.4.1 稳定状态空间和次优动作

4.4.2 状态预评估准则

4.4.3 改进报酬信号

4.5 基于状态预评估和动作连续性准则的探索策略

4.5.1 探索策略的基本思想

4.5.2 探索策略的主要步骤

4.6 自适应划分状态空间方法

4.6.1 状态子空间的定义

4.6.2 子空间顶点的Q值

4.6.3 状态空间的分裂

4.6.4 状态空间的合并

4.7 倒立摆实验结果和分析

4.7.1 实验参数设置

4.7.2 实验结果

4.8 小结

5 基于定性动作的分层Option算法

5.1 引言

5.2 探索策略的探索和利用问题

5.2.1 问题描述

5.2.2 产生问题的原因

5.2.3 常用的解决方法

5.2.4 分时探索策略所存在的问题

5.3 算法的基本思想

5.3.1 系统控制任务的次优策略

5.3.2 算法的框架结构

5.3.3 学习次优策略的作用

5.4 基于定性动作的分步探索策略

5.4.1 基于定性动作的SMDP模型

5.4.2 基于状态路径的次优定性动作判断准则

5.4.3 分步探索策略执行方法

5.5 分步探索策略所存在的问题和解决方法

5.5.1 次优动作的判断和选择

5.5.2 基于平衡状态的极限环检测方法

5.5.3 分步探索策略的主要步骤

5.6 倒立摆实验结果和分析

5.6.1 实验设计和参数设置

5.6.2 实验结果

5.7 小结

6 基于定性模糊网络的分层强化学习算法

6.1 引言

6.2 参数相关任务中常用知识传递方法和存在的问题

6.3 基于定性模型的知识传递的基本思想

6.3.1 基本思想

6.3.2 参数相关任务的定性模型

6.3.3 算法的层次结构

6.4 定性模糊网络的学习方法

6.4.1 定性模糊网络的结构

6.4.2 定性模糊网络的特点

6.5 目标任务中知识传递的实现方法

6.5.1 目标任务中状态路径的作用

6.5.2 基于状态路径的报酬信号

6.5.3 状态子空间的调整

6.5.4 错误报酬信号对学习效率的影响

6.5.5 状态路径与值传递方法的区别

6.6 实验

6.6.1 实验设计和参数

6.6.2 实验结果和分析

6.7 小结

7 总结与展望

7.1 全文工作总结

7.1.1 本文的主要研究内容

7.1.2 各算法的学习方法比较

7.2 进一步研究设想

参考文献

附录A 基于稳定状态空间算法的收敛性证明

攻读博士期间完成的论文

分层强化学习算法及其应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢