论文摘要
经过几十年发展,强化学习已得到长足的进步,已成为机器学习、人工智能研究中最活跃的领域之一。在实际问题中,由于状态空间的规模过大以及目前硬件条件的限制,导致算法的效率不高。现有的大多数算法都采用属性值计算,不能体现物体间的关系。随着逻辑程序的发展,这种关系可以通过变量来描述,使得学习任务从复杂的计算中抽象出来。关系强化学习将逻辑程序和强化学习结合,为强化学习处理大状态空间问题提供了新的方法。本文主要工作内容进行如下:1.通过分析现有各种算法及运行机制,提出了一种改进的关系强化学习算法。由于原算法计算重复、迭代次数多、值备份过多,改进算法采用一种增量更新逻辑决策树的方法实时处理每一个样本点。减少了计算量,提高了算法实时性;为了弥补子叶节点信息丢失造成收敛速度慢的不足,算法给逻辑谓词赋予了一个优先级。并在子叶分裂过程中,根据优先级选定候选测试,以提高算法收敛速度。经实验对比原算法,改进算法的效率有较大提升。2.概述了现有智能车的智能控制算法;建立了一个基于关系强化学习模型的自主驾驶系统。系统分为状态分析、策略学习、知识库三个模块。这种模块化的设计便于针对不同车辆的特点,设置不同的背景知识。充分利用关系强化学习的学习能力,提高了系统适应性。实验模拟了不同的环境,检测了系统的避障性能。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 强化学习的发展1.3 本文主要研究内容第二章 强化学习2.1 强化学习模型2.1.1 值迭代2.1.2 策略迭代2.1.3 改进的值迭代和策略迭代2.2 无模型的策略学习2.2.1 TD 算法2.2.2 Q 学习算法2.3 基于模型的策略学习2.3.1 DYNA 算法2.3.2 优先扫描序列2.4 大状态空间问题的解决方法2.4.1 近似技术2.4.2 分层技术2.4.3 因素化表述技术2.4.4 其他抽象技术2.5 本章小结第三章 关系强化学习的研究与改进3.1 研究关系强化学习的必要性3.2 关系型MDP3.2.1 关系的表述3.2.2 逻辑抽象和分割3.3 一阶逻辑谓词决策树的构建3.3.1 一般决策树的构建3.3.2 逻辑决策树的构建3.4 逻辑树和Q 算法的结合3.5 改进的关系型强化学习3.5.1 原算法缺点分析3.5.2 增量算法改进3.5.3 候选谓词算法改进3.6 对比实验及算法分析3.6.1 固定积木实验3.6.2 变化积木实验3.7 本章小结第四章 基于强化学习的自主驾驶系统4.1 智能车概述4.2 智能车避障模型4.3 各模块研究4.3.1 状态分析模块4.3.2 知识库系统4.4 实验4.4.1 实验设置4.4.2 实验及结果分析4.5 本章小结第五章 结论与展望5.1 结论5.2 进一步工作参考文献致谢附录(攻读硕士学位期间发表论文及参与的科研项目)
相关论文文献
标签:关系强化学习论文; 一阶谓词逻辑论文; 决策树论文; 自主驾驶系统论文;