关系强化学习的研究与应用

关系强化学习的研究与应用

论文摘要

经过几十年发展,强化学习已得到长足的进步,已成为机器学习、人工智能研究中最活跃的领域之一。在实际问题中,由于状态空间的规模过大以及目前硬件条件的限制,导致算法的效率不高。现有的大多数算法都采用属性值计算,不能体现物体间的关系。随着逻辑程序的发展,这种关系可以通过变量来描述,使得学习任务从复杂的计算中抽象出来。关系强化学习将逻辑程序和强化学习结合,为强化学习处理大状态空间问题提供了新的方法。本文主要工作内容进行如下:1.通过分析现有各种算法及运行机制,提出了一种改进的关系强化学习算法。由于原算法计算重复、迭代次数多、值备份过多,改进算法采用一种增量更新逻辑决策树的方法实时处理每一个样本点。减少了计算量,提高了算法实时性;为了弥补子叶节点信息丢失造成收敛速度慢的不足,算法给逻辑谓词赋予了一个优先级。并在子叶分裂过程中,根据优先级选定候选测试,以提高算法收敛速度。经实验对比原算法,改进算法的效率有较大提升。2.概述了现有智能车的智能控制算法;建立了一个基于关系强化学习模型的自主驾驶系统。系统分为状态分析、策略学习、知识库三个模块。这种模块化的设计便于针对不同车辆的特点,设置不同的背景知识。充分利用关系强化学习的学习能力,提高了系统适应性。实验模拟了不同的环境,检测了系统的避障性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 强化学习的发展
  • 1.3 本文主要研究内容
  • 第二章 强化学习
  • 2.1 强化学习模型
  • 2.1.1 值迭代
  • 2.1.2 策略迭代
  • 2.1.3 改进的值迭代和策略迭代
  • 2.2 无模型的策略学习
  • 2.2.1 TD 算法
  • 2.2.2 Q 学习算法
  • 2.3 基于模型的策略学习
  • 2.3.1 DYNA 算法
  • 2.3.2 优先扫描序列
  • 2.4 大状态空间问题的解决方法
  • 2.4.1 近似技术
  • 2.4.2 分层技术
  • 2.4.3 因素化表述技术
  • 2.4.4 其他抽象技术
  • 2.5 本章小结
  • 第三章 关系强化学习的研究与改进
  • 3.1 研究关系强化学习的必要性
  • 3.2 关系型MDP
  • 3.2.1 关系的表述
  • 3.2.2 逻辑抽象和分割
  • 3.3 一阶逻辑谓词决策树的构建
  • 3.3.1 一般决策树的构建
  • 3.3.2 逻辑决策树的构建
  • 3.4 逻辑树和Q 算法的结合
  • 3.5 改进的关系型强化学习
  • 3.5.1 原算法缺点分析
  • 3.5.2 增量算法改进
  • 3.5.3 候选谓词算法改进
  • 3.6 对比实验及算法分析
  • 3.6.1 固定积木实验
  • 3.6.2 变化积木实验
  • 3.7 本章小结
  • 第四章 基于强化学习的自主驾驶系统
  • 4.1 智能车概述
  • 4.2 智能车避障模型
  • 4.3 各模块研究
  • 4.3.1 状态分析模块
  • 4.3.2 知识库系统
  • 4.4 实验
  • 4.4.1 实验设置
  • 4.4.2 实验及结果分析
  • 4.5 本章小结
  • 第五章 结论与展望
  • 5.1 结论
  • 5.2 进一步工作
  • 参考文献
  • 致谢
  • 附录(攻读硕士学位期间发表论文及参与的科研项目)
  • 相关论文文献

    标签:;  ;  ;  ;  

    关系强化学习的研究与应用
    下载Doc文档

    猜你喜欢