强化学习通过试错与环境交互而获得策略的改进,其自学习和在线学习的特点使其在实际中获得了越来越广泛的应用。但是,强化学习一直被“维数灾难”所困扰。分层强化学习(HRL)是为解决强化学习的维数灾问题而提出的,并取得了显著进展。分层强化学习的实质是通过在强化学习的基础上增加“抽象”机制,把整体任务分解为不同层次上的子任务,使每个子任务在规模较小的子问题空间中求解,并且求得的子任务策略可以复用,从而加快问题的求解速度。代表性成果有Option、HAM和MAXQ等方法。本文探讨一种新的分层强化学习方法—AOM,并深入研究该算法所涉及的理论和计算问题,以及该方法在实际应用中需要解决的问题。具体围绕以下两个方面工作展开:(1)设计了AOM分层强化学习方法,给出了理论框架和学习算法。该方法基于蚁群聚类算法(ACCA)自动生成Option分层,并利用了MAXQ良好的在线学习能力。实验结果证明了AOM学习方法的有效性;(2)提出了基于ACCA的AOM任务自动分层算法,算法基于ACCA实现状态空间聚类,以生成的状态聚类子空间为基础构造子任务,实验表明该方法克服了以往任务自动分层算法对状态空间可分割性的高度依赖问题。
本文来源: https://www.lw50.cn/article/1cee5b0fa45db74509946d91.html