基于模型的动态分层强化学习算法研究

基于模型的动态分层强化学习算法研究

论文摘要

强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,智能体在大规模高维度的决策环境下进行强化学习时被“维数灾难”(学习参数的个数随变量的维数成指数级增长)所困扰,学习效率低下,导致难以及时甚至无法完成学习任务。因此,如果能有效缓解“维数灾难”,提出一种适用于未知大规模复杂环境下的高效率强化学习方法,则可以为提高智能体在实际应用中的自适应性提供有效的解决方案,对促进机器学习领域理论和技术的发展具有重要意义。因此,为了缓解未知大规模环境下的“维数灾难”问题,提高学习效率,本文研究将动态分层技术和基于模型的自学习技术相结合的方法,在基于模型的强化学习过程中,提出一种基于探索信息自适应聚类的动态分层强化学习算法。该算法动态生成融合了状态抽象和时态抽象(或称动作抽象)的MAXQ分层结构,从而通过限制MAXQ中每个子任务的策略搜索空间而显著加快了学习速度。首先,在基于模型的强化学习过程中,利用基于探索信息的自适应聚类算法将整个状态空间划分成若干个状态子空间,即通过状态抽象完成了任务的自动分层,并基于状态子空间的终止状态集,提出-种改进的动作选择策略。其次,根据各动作有效执行的频率情况进行时态抽象自动生成类似于MAXQ的分层结构,进而根据有效动作集将各状态子空间归入到相应的MAXQ子任务中,从而自动生成融合了状态抽象和时态抽象的MAXQ分层结构。再次,基于该MAXQ分层框架搜索任务的递归最优策略,并在以后的学习过程中动态调整MAXQ结构,以降低初次分层结构不合理的局限性。通过仿真试验表明,本文提出的算法能显著提高未知环境下智能体的学习效率,有效缓解“维数灾难”问题,从而验证了算法的有效性。最后对论文进行总结,并提出一些有待进一步研究的问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 强化学习的常用方法
  • 1.2.2 大规模学习的"维数灾难"问题
  • 1.2.3 自动分层方法
  • 1.3 本文研究内容
  • 1.4 论文构成
  • 第二章 未知环境中的动态分层问题
  • 2.1 强化学习
  • 2.2 分层强化学习
  • 2.2.1 分层与抽象
  • 2.2.2 MAXQ分层强化学习
  • 2.3 动态分层的必要性和可行性分析
  • 2.4 本章小结
  • 第三章 基于状态抽象的自动分层
  • 3.1 基于贝叶斯学习的强化学习
  • 3.2 基于状态抽象的自动分层
  • 3.2.1 聚类分析
  • 3.2.2 相关聚类参数的定义
  • 3.2.3 基于探索信息的自适应聚类算法
  • 3.3 动作选择策略的改进
  • 3.4 仿真实验
  • 3.5 本章小结
  • 第四章 基于探索信息自适应聚类的动态分层强化学习
  • 4.1 基于时态抽象的自动分层
  • 4.2 初始分层结构的自动生成
  • 4.3 最优策略的搜索
  • 4.4 分层结构的动态调整
  • 4.5 DHRL-ACEI算法的总体流程
  • 4.6 DHRL-ACEI算法的性能分析
  • 4.7 仿真试验与结果分析
  • 4.8 本章小结
  • 第五章 结论与展望
  • 5.1 结论
  • 5.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间主要的研究成果
  • 相关论文文献

    • [1].考虑市场因素的电力系统供需互动混合博弈强化学习算法[J]. 控制理论与应用 2020(04)
    • [2].概率近似正确的强化学习算法解决连续状态空间控制问题[J]. 控制理论与应用 2016(12)
    • [3].基于粒子滤波的强化学习算法建模研究[J]. 无线互联科技 2017(01)
    • [4].基于粒子滤波的直接策略搜索强化学习算法研究[J]. 江苏科技信息 2017(07)
    • [5].强化学习算法与应用综述[J]. 计算机系统应用 2020(12)
    • [6].基于改进深度强化学习算法的电力市场监测模型研究[J]. 国外电子测量技术 2020(01)
    • [7].基于EnergyPlus-Python联合模拟和强化学习算法的室内环境控制优化[J]. 建设科技 2019(24)
    • [8].基于出租车司机经验的约束深度强化学习算法路径挖掘[J]. 计算机应用研究 2020(05)
    • [9].强化学习算法在空调系统运行优化中的应用研究[J]. 建筑节能 2020(07)
    • [10].面向交通信号控制的改进强化学习算法[J]. 电脑迷 2017(03)
    • [11].一种新的基于蚁群优化的模糊强化学习算法[J]. 计算机应用研究 2011(04)
    • [12].基于粒子滤波的强化学习算法研究[J]. 无线互联科技 2016(15)
    • [13].基于性能势的A*平均奖赏强化学习算法研究[J]. 计算机仿真 2014(07)
    • [14].一种基于资格迹的并行强化学习算法[J]. 苏州大学学报(自然科学版) 2012(01)
    • [15].基于强化学习算法的公交信号优先策略[J]. 东北大学学报(自然科学版) 2012(10)
    • [16].基于核方法的强化学习算法[J]. 微计算机信息 2008(04)
    • [17].基于个性的群体强化学习算法[J]. 微计算机信息 2008(36)
    • [18].集成规划的行动-自适应评价强化学习算法[J]. 内蒙古大学学报(自然科学版) 2008(03)
    • [19].多Agent系统的Q值强化学习算法[J]. 河南师范大学学报(自然科学版) 2013(02)
    • [20].一种基于生成对抗网络的强化学习算法[J]. 计算机科学 2019(10)
    • [21].面向高铁无线网络覆盖与容量优化的多agent模糊强化学习算法[J]. 通信技术 2015(11)
    • [22].强化学习算法的稳定状态空间控制[J]. 计算机应用 2008(05)
    • [23].基于强化学习算法的井下移动机器人路径规划[J]. 电气技术 2008(08)
    • [24].一种基于信息熵的强化学习算法[J]. 系统工程与电子技术 2010(05)
    • [25].并行强化学习算法及其应用研究[J]. 计算机工程与应用 2009(34)
    • [26].分阶Dyna强化学习算法[J]. 计算机仿真 2009(07)
    • [27].基于动态融合目标的深度强化学习算法研究[J]. 计算机工程与应用 2019(07)
    • [28].基于生成对抗网络的最大熵逆强化学习[J]. 计算机工程与应用 2019(22)
    • [29].基于知识的Agent强化学习算法分析与研究[J]. 电子设计工程 2011(11)
    • [30].基于实用推理的多智能体协作强化学习算法[J]. 华中科技大学学报(自然科学版) 2010(04)

    标签:;  ;  ;  ;  

    基于模型的动态分层强化学习算法研究
    下载Doc文档

    猜你喜欢