基于Option自动生成的分层强化学习方法研究

论文摘要

强化学习通过试错与环境交互而获得策略的改进,其自学习和在线学习的特点使其在实际中获得了越来越广泛的应用。但是,强化学习一直被“维数灾难”所困扰。分层强化学习(HRL)是为解决强化学习的维数灾问题而提出的,并取得了显著进展。分层强化学习的实质是通过在强化学习的基础上增加“抽象”机制,把整体任务分解为不同层次上的子任务,使每个子任务在规模较小的子问题空间中求解,并且求得的子任务策略可以复用,从而加快问题的求解速度。代表性成果有Option、HAM和MAXQ等方法。本文探讨一种新的分层强化学习方法—AOM,并深入研究该算法所涉及的理论和计算问题,以及该方法在实际应用中需要解决的问题。具体围绕以下两个方面工作展开:(1)设计了AOM分层强化学习方法,给出了理论框架和学习算法。该方法基于蚁群聚类算法(ACCA)自动生成Option分层,并利用了MAXQ良好的在线学习能力。实验结果证明了AOM学习方法的有效性;(2)提出了基于ACCA的AOM任务自动分层算法,算法基于ACCA实现状态空间聚类,以生成的状态聚类子空间为基础构造子任务,实验表明该方法克服了以往任务自动分层算法对状态空间可分割性的高度依赖问题。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景和意义

1.2 研究现状

1.3 研究内容

1.4 论文结构

第二章分层强化学习理论基础

2.1 强化学习

2.1.1 强化学习简介

2.1.2 强化学习算法

2.1.3 强化学习有待解决的问题

2.2 分层强化学习理论

2.2.1 半马氏决策过程

2.2.2 分层与抽象

2.2.3 典型分层强化学习方法

2.3 本章小结

第三章 AOM 分层强化学习理论与算法设计

3.1 实验用例描述

3.2 AOM 理论基础

3.3 AOM 学习算法设计

3.3.1 算法描述

3.3.2 算法流程图

3.3.3 AOM 值函数更新过程

3.4 本章小结

第四章基于蚁群聚类的AOM 任务自动分层算法

4.1 蚁群聚类算法剖析

4.1.1 蚁群算法

4.1.2 蚁群聚类算法及其分析

4.2 基于蚁群聚类的 Option 自动生成算法

4.3 本章小结

第五章仿真实验与结果分析

5.1 实验目的及参数设置

5.2 实验1：具有规则障碍的网格环境

5.2.1 问题描述

5.2.2 实验结果

5.3 实验2：具有不规则障碍的网格环境

5.3.1 问题描述

5.3.2 实验结果

5.4 实验分析

5.5 本章小结

结论与展望

参考文献

致谢

附录（攻读硕士学位期间发表论文及参与的科研项目）

基于Option自动生成的分层强化学习方法研究

论文摘要

论文目录

相关论文文献