论文摘要
强化学习通过试错与环境交互而获得策略的改进,其自学习和在线学习的特点使其在实际中获得了越来越广泛的应用。但是,强化学习一直被“维数灾难”所困扰。分层强化学习(HRL)是为解决强化学习的维数灾问题而提出的,并取得了显著进展。分层强化学习的实质是通过在强化学习的基础上增加“抽象”机制,把整体任务分解为不同层次上的子任务,使每个子任务在规模较小的子问题空间中求解,并且求得的子任务策略可以复用,从而加快问题的求解速度。代表性成果有Option、HAM和MAXQ等方法。本文探讨一种新的分层强化学习方法—AOM,并深入研究该算法所涉及的理论和计算问题,以及该方法在实际应用中需要解决的问题。具体围绕以下两个方面工作展开:(1)设计了AOM分层强化学习方法,给出了理论框架和学习算法。该方法基于蚁群聚类算法(ACCA)自动生成Option分层,并利用了MAXQ良好的在线学习能力。实验结果证明了AOM学习方法的有效性;(2)提出了基于ACCA的AOM任务自动分层算法,算法基于ACCA实现状态空间聚类,以生成的状态聚类子空间为基础构造子任务,实验表明该方法克服了以往任务自动分层算法对状态空间可分割性的高度依赖问题。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景和意义1.2 研究现状1.3 研究内容1.4 论文结构第二章 分层强化学习理论基础2.1 强化学习2.1.1 强化学习简介2.1.2 强化学习算法2.1.3 强化学习有待解决的问题2.2 分层强化学习理论2.2.1 半马氏决策过程2.2.2 分层与抽象2.2.3 典型分层强化学习方法2.3 本章小结第三章 AOM 分层强化学习理论与算法设计3.1 实验用例描述3.2 AOM 理论基础3.3 AOM 学习算法设计3.3.1 算法描述3.3.2 算法流程图3.3.3 AOM 值函数更新过程3.4 本章小结第四章 基于蚁群聚类的AOM 任务自动分层算法4.1 蚁群聚类算法剖析4.1.1 蚁群算法4.1.2 蚁群聚类算法及其分析 4.2 基于蚁群聚类的 Option 自动生成算法4.3 本章小结第五章 仿真实验与结果分析5.1 实验目的及参数设置5.2 实验1:具有规则障碍的网格环境5.2.1 问题描述5.2.2 实验结果5.3 实验2:具有不规则障碍的网格环境5.3.1 问题描述5.3.2 实验结果5.4 实验分析5.5 本章小结结论与展望参考文献致谢附录(攻读硕士学位期间发表论文及参与的科研项目)
相关论文文献
标签:分层强化学习论文; 蚁群聚类算法论文; 自动分层论文;