基于模型的动态分层强化学习算法研究

论文摘要

强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,智能体在大规模高维度的决策环境下进行强化学习时被“维数灾难”（学习参数的个数随变量的维数成指数级增长）所困扰,学习效率低下,导致难以及时甚至无法完成学习任务。因此,如果能有效缓解“维数灾难”,提出一种适用于未知大规模复杂环境下的高效率强化学习方法,则可以为提高智能体在实际应用中的自适应性提供有效的解决方案,对促进机器学习领域理论和技术的发展具有重要意义。因此,为了缓解未知大规模环境下的“维数灾难”问题,提高学习效率,本文研究将动态分层技术和基于模型的自学习技术相结合的方法,在基于模型的强化学习过程中,提出一种基于探索信息自适应聚类的动态分层强化学习算法。该算法动态生成融合了状态抽象和时态抽象（或称动作抽象）的MAXQ分层结构,从而通过限制MAXQ中每个子任务的策略搜索空间而显著加快了学习速度。首先,在基于模型的强化学习过程中,利用基于探索信息的自适应聚类算法将整个状态空间划分成若干个状态子空间,即通过状态抽象完成了任务的自动分层,并基于状态子空间的终止状态集,提出-种改进的动作选择策略。其次,根据各动作有效执行的频率情况进行时态抽象自动生成类似于MAXQ的分层结构,进而根据有效动作集将各状态子空间归入到相应的MAXQ子任务中,从而自动生成融合了状态抽象和时态抽象的MAXQ分层结构。再次,基于该MAXQ分层框架搜索任务的递归最优策略,并在以后的学习过程中动态调整MAXQ结构,以降低初次分层结构不合理的局限性。通过仿真试验表明,本文提出的算法能显著提高未知环境下智能体的学习效率,有效缓解“维数灾难”问题,从而验证了算法的有效性。最后对论文进行总结,并提出一些有待进一步研究的问题。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 强化学习的常用方法

1.2.2 大规模学习的"维数灾难"问题

1.2.3 自动分层方法

1.3 本文研究内容

1.4 论文构成

第二章未知环境中的动态分层问题

2.1 强化学习

2.2 分层强化学习

2.2.1 分层与抽象

2.2.2 MAXQ分层强化学习

2.3 动态分层的必要性和可行性分析

2.4 本章小结

第三章基于状态抽象的自动分层

3.1 基于贝叶斯学习的强化学习

3.2 基于状态抽象的自动分层

3.2.1 聚类分析

3.2.2 相关聚类参数的定义

3.2.3 基于探索信息的自适应聚类算法

3.3 动作选择策略的改进

3.4 仿真实验

3.5 本章小结

第四章基于探索信息自适应聚类的动态分层强化学习

4.1 基于时态抽象的自动分层

4.2 初始分层结构的自动生成

4.3 最优策略的搜索

4.4 分层结构的动态调整

4.5 DHRL-ACEI算法的总体流程

4.6 DHRL-ACEI算法的性能分析

4.7 仿真试验与结果分析

4.8 本章小结

第五章结论与展望

5.1 结论

5.2 展望

参考文献

致谢

攻读硕士学位期间主要的研究成果

基于模型的动态分层强化学习算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢