分层强化学习方法研究

论文摘要

强化学习通过试错与环境交互获得策略的改进，其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是，强化学习一直被维数灾难所困扰。近年来，分层强化学习在克服维数灾难方面取得了显著进展，典型的成果有Option、HAM和MAXQ等方法，其中Option和MAXQ目前使用较为广泛。Option方法便于自动划分子任务（尤其分区或分段子任务），且子任务粒度易于控制，但利用先验知识划分子任务时，任务划分结果表达不够明晰，且子任务内部策略难于确定；MAXQ方法在线学习能力强，但自动分层能力较弱，且分层粒度不够精细，难于对一些规模依然很大的子任务做出进一步的分解。本文集成Option和MAXQ探讨一种新的分层强化学习方法——OMQ，并深入研究集成过程中所涉及的理论与计算问题，以及该方法在实际应用中需要进一步解决的问题。论文完成了以下主要工作：（1）提出了OMQ分层强化学习方法，给出了理论框架和学习算法，该框架集成了Option和MAXQ的优势，对学习任务既可以利用先验知识进行预先分层，也可以在学习过程中自动分层，拓展了任务分层能力；根据随机逼近理论采用数学归纳法证明了学习算法在与MAXQ相同的收敛条件下能依概率1收敛到递归最优解；实验表明OMQ学习算法的性能优于Q-学习、Option和MAXQ的学习算法；（2）提出了基于免疫聚类的OMQ任务自动分层算法，算法基于aiNet人工免疫网络模型及免疫克隆选择算法实现状态空间聚类，以生成的状态聚类子空间为基础构造子任务，实验表明该算法克服了以往的任务自动分层算法对状态空间可分割性的高度依赖问题；并借鉴免疫系统二次应答机制对算法进一步改进，提出了动态自动分层OMQ算法（DOMQ），在对状态空间进行初步探测之后即进行自动分层，并可以根据其后的探测结果对已生成子任

论文目录

第1章绪论

1.1 研究动机

1.2 研究内容

1.3 论文结构

第2章分层强化学习综述

2.1 引言

2.2 分层强化学习基本原理

2.2.1 强化学习

2.2.2 半马氏决策过程

2.2.3 分层与抽象

2.3 分层强化学习方法研究现状

2.3.1 Option分层强化学习方法

2.3.2 HAM分层强化学习方法

2.3.3 MAXQ分层强化学习方法

2.3.4 比较与分析

2.4 任务自动分层方法研究现状

2.4.1 瓶颈和路标状态法

2.4.2 共用子空间法

2.4.3 多维状态法

2.4.4 马氏空间法

2.4.5 其他有关方法

2.4.6 任务自动分层方法评价

2.5 多智能体分层强化学习研究现状

2.6 本章小结

第3章 OMQ分层强化学习理论框架与学习算法

3.1 引言

3.2 用例描述

3.3 OMQ理论框架

3.4 OMQ学习算法

3.5 OMQ学习算法最优性分析

3.6 OMQ学习算法收敛性证明

3.7 OMQ学习算法实验分析

3.7.1 OMQ值函数分解过程实例剖析

3.7.2 OMQ与Q-学习算法收敛速度对比分析

3.7.3 OMQ与Option及MAXQ学习算法性能对比分析

3.8 本章小结

第4章基于免疫聚类的OMQ任务自动分层算法

4.1 引言

4.2 免疫原理剖析

4.2.1 生物免疫机理

4.2.2 人工免疫系统

4.3 基于免疫聚类的Option自动生成算法

4.3.1 算法描述

4.3.2 实验分析

4.4 基于二次应答机制的动态分层OMQ算法

4.4.1 算法描述

4.4.2 实验分析

4.5 本章小结

第5章未知动态环境中OMQ分层强化学习方法

5.1 引言

5.2 移动机器人路径规划问题

5.3 未知动态环境中的OMQ分层强化学习算法

5.4 实验分析

5.5 与POMDP有关方法的比较

5.6 本章小结

第6章多智能体OMQ分层强化学习方法

6.1 引言

6.2 多智能体强化学习问题剖析

6.3 多智能体OMQ分层强化学习框架

6.4 多智能体OMQ分层强化学习算法

6.5 实验分析

6.6 本章小结

结论

参考文献

攻读博士学位期间发表的论文和取得的科研成果

致谢

分层强化学习方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢