分层强化学习方法研究

分层强化学习方法研究

论文摘要

强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是,强化学习一直被维数灾难所困扰。近年来,分层强化学习在克服维数灾难方面取得了显著进展,典型的成果有Option、HAM和MAXQ等方法,其中Option和MAXQ目前使用较为广泛。Option方法便于自动划分子任务(尤其分区或分段子任务),且子任务粒度易于控制,但利用先验知识划分子任务时,任务划分结果表达不够明晰,且子任务内部策略难于确定;MAXQ方法在线学习能力强,但自动分层能力较弱,且分层粒度不够精细,难于对一些规模依然很大的子任务做出进一步的分解。 本文集成Option和MAXQ探讨一种新的分层强化学习方法——OMQ,并深入研究集成过程中所涉及的理论与计算问题,以及该方法在实际应用中需要进一步解决的问题。 论文完成了以下主要工作: (1)提出了OMQ分层强化学习方法,给出了理论框架和学习算法,该框架集成了Option和MAXQ的优势,对学习任务既可以利用先验知识进行预先分层,也可以在学习过程中自动分层,拓展了任务分层能力;根据随机逼近理论采用数学归纳法证明了学习算法在与MAXQ相同的收敛条件下能依概率1收敛到递归最优解;实验表明OMQ学习算法的性能优于Q-学习、Option和MAXQ的学习算法; (2)提出了基于免疫聚类的OMQ任务自动分层算法,算法基于aiNet人工免疫网络模型及免疫克隆选择算法实现状态空间聚类,以生成的状态聚类子空间为基础构造子任务,实验表明该算法克服了以往的任务自动分层算法对状态空间可分割性的高度依赖问题;并借鉴免疫系统二次应答机制对算法进一步改进,提出了动态自动分层OMQ算法(DOMQ),在对状态空间进行初步探测之后即进行自动分层,并可以根据其后的探测结果对已生成子任

论文目录

  • 第1章 绪论
  • 1.1 研究动机
  • 1.2 研究内容
  • 1.3 论文结构
  • 第2章 分层强化学习综述
  • 2.1 引言
  • 2.2 分层强化学习基本原理
  • 2.2.1 强化学习
  • 2.2.2 半马氏决策过程
  • 2.2.3 分层与抽象
  • 2.3 分层强化学习方法研究现状
  • 2.3.1 Option分层强化学习方法
  • 2.3.2 HAM分层强化学习方法
  • 2.3.3 MAXQ分层强化学习方法
  • 2.3.4 比较与分析
  • 2.4 任务自动分层方法研究现状
  • 2.4.1 瓶颈和路标状态法
  • 2.4.2 共用子空间法
  • 2.4.3 多维状态法
  • 2.4.4 马氏空间法
  • 2.4.5 其他有关方法
  • 2.4.6 任务自动分层方法评价
  • 2.5 多智能体分层强化学习研究现状
  • 2.6 本章小结
  • 第3章 OMQ分层强化学习理论框架与学习算法
  • 3.1 引言
  • 3.2 用例描述
  • 3.3 OMQ理论框架
  • 3.4 OMQ学习算法
  • 3.5 OMQ学习算法最优性分析
  • 3.6 OMQ学习算法收敛性证明
  • 3.7 OMQ学习算法实验分析
  • 3.7.1 OMQ值函数分解过程实例剖析
  • 3.7.2 OMQ与Q-学习算法收敛速度对比分析
  • 3.7.3 OMQ与Option及MAXQ学习算法性能对比分析
  • 3.8 本章小结
  • 第4章 基于免疫聚类的OMQ任务自动分层算法
  • 4.1 引言
  • 4.2 免疫原理剖析
  • 4.2.1 生物免疫机理
  • 4.2.2 人工免疫系统
  • 4.3 基于免疫聚类的Option自动生成算法
  • 4.3.1 算法描述
  • 4.3.2 实验分析
  • 4.4 基于二次应答机制的动态分层OMQ算法
  • 4.4.1 算法描述
  • 4.4.2 实验分析
  • 4.5 本章小结
  • 第5章 未知动态环境中OMQ分层强化学习方法
  • 5.1 引言
  • 5.2 移动机器人路径规划问题
  • 5.3 未知动态环境中的OMQ分层强化学习算法
  • 5.4 实验分析
  • 5.5 与POMDP有关方法的比较
  • 5.6 本章小结
  • 第6章 多智能体OMQ分层强化学习方法
  • 6.1 引言
  • 6.2 多智能体强化学习问题剖析
  • 6.3 多智能体OMQ分层强化学习框架
  • 6.4 多智能体OMQ分层强化学习算法
  • 6.5 实验分析
  • 6.6 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].中国农科院启动“良种猪,国产化”计划[J]. 北方牧业 2020(12)
    • [2].中国农科院启动“良种猪,国产化”计划[J]. 甘肃畜牧兽医 2020(06)
    • [3].基于异构环境的子任务可分解调度策略研究[J]. 微电子学与计算机 2011(07)
    • [4].云制造环境下子任务在分布式机器人中的调度方法[J]. 制造技术与机床 2017(06)
    • [5].参数相关任务中Option算法的子任务重用[J]. 煤炭技术 2014(01)
    • [6].基于子任务及其执行时间的动态电源管理[J]. 西南交通大学学报 2010(03)
    • [7].油库机构和编制定量设置方法[J]. 中国民航飞行学院学报 2011(04)
    • [8].经济、安全的海量数据生命周期管理方案[J]. 计算机工程与设计 2009(19)
    • [9].基于信息化的《职业生涯规划与就业创业》教学探析[J]. 现代教育 2015(04)
    • [10].基于预申请和功能替代的Sagas模型改进[J]. 计算机工程与应用 2011(19)
    • [11].面向复杂任务结构的Agent联盟算法[J]. 小型微型计算机系统 2011(03)
    • [12].基于WBS的船载测控系统效能评估研究[J]. 现代雷达 2015(09)
    • [13].一起来认识如影随形的拖延[J]. 健康生活 2016(07)
    • [14].制造网格任务分解规则、方法及应用研究[J]. 计算机工程与应用 2010(04)
    • [15].引入式项目教学方法在高职院校计算机软件教学中的应用[J]. 计算机教育 2010(01)
    • [16].ERP系统中MAS的应用研究[J]. 徐州工程学院学报 2008(04)
    • [17].基于本体的任务模型研究与应用[J]. 办公自动化 2009(02)
    • [18].分层强化学习研究进展[J]. 计算机应用研究 2008(04)
    • [19].一种在线集群异常作业预测方法[J]. 北京邮电大学学报 2019(05)
    • [20].一种面向部分可重构FPGA的混合实时调度算法[J]. 计算机科学 2010(10)
    • [21].基于马尔可夫逻辑网的联合推理开放信息抽取[J]. 计算机科学 2012(09)
    • [22].PSO算法在子任务分配中的应用[J]. 计算机工程 2011(24)
    • [23].一种分段集群异常作业预测方法[J]. 大连理工大学学报 2019(04)
    • [24].基于递进式案例教学法的Java课程教学改革研究[J]. 计算机教育 2013(23)
    • [25].基于M4系统的多传感器资源分配管理[J]. 火力与指挥控制 2008(07)
    • [26].基于协商协议的客户协同设计任务分配[J]. 现代制造工程 2014(10)
    • [27].多重不确定因素影响的高端装备研制任务仿真建模[J]. 系统工程与电子技术 2018(06)
    • [28].FOI2020算法冬令营提高组第1试详解[J]. 福建电脑 2020(03)
    • [29].高职院校机电专业基础课和专业课构建融合模式的创新与探讨[J]. 南方农机 2019(03)
    • [30].云服务中结果回收策略研究[J]. 信息与电脑(理论版) 2015(15)

    标签:;  ;  ;  ;  

    分层强化学习方法研究
    下载Doc文档

    猜你喜欢