基于逻辑马尔可夫决策过程的关系强化学习研究

论文摘要

目前普遍认为智能主体应当具有学习能力,能够把握和适应动态环境的变化。在没有任何老师指导的情况下,强化学习让主体尝试行动,在与环境交互过程中试错,根据收集到的环境反馈,对尝试的行动进行评价,最终把握环境并学会行动决策以适应环境。以马尔可夫决策过程为基础,近年来提出了很多强化学习方法,获得了很大的进展,对以特性向量表示的状态也有了充分的研究。然而特性向量这种命题表示法,很难表示环境中的关系信息,特别是有大量物体,物体之间又有很多关系的领域。为了把强化学习方法应用到这些复杂的环境,最近提出了以关系表示为基础的关系强化学习,研究在用关系逻辑表示环境的状态和主体的行动时,如何进行学习,以及如何对环境状态进行抽象以把握环境。用常原子表示的环境基本状态空间巨大,需要使用适当的有变量的抽象状态表示方法来把握环境。最近提出了一些关系强化学习的方法和模型,但对关系强化学习问题本身还缺乏透彻的理解,关系强化学习的理论也很不充分。本文在简单的仅用原子表示的逻辑马尔可夫决策过程LOMDP的基础上,提出了带否定词的逻辑马尔可夫决策过程nLMDP,并基于该模型,提出了替换学习方法及状态演化方法。在逻辑马尔可夫决策过程nLMDP中,首次引入了逻辑否定,用来准确的描述环境和任务。然后又提出了抽象状态空间的生成方法和扩展方法,从一个准确描述的的目标抽象状态开始,使用一次生成方法和多次扩展方法,可以让设计者很容易的得到一个规模适度的互补抽象状态空间,即每个基本状态只有一个抽象状态来表示,所有的抽象状态又能表示所有的基本状态。本文也提出了原型行动,以表示环境内主体的基本行动方式,是抽象行动上的更高抽象。原型行动中同样引入了逻辑否定表示行动的执行条件,根据原型行动和互补的抽象状态空间,可以很容易得到抽象状态上的可执行抽象行动。逻辑马尔可夫决策过程nLMDP基于互补的抽象状态空间和原型行动集构建。基于nLMDP,本文提出了替换学习(θ(λ))方法,实现了主体在线自动获得抽象行动,并完成对原型行动到抽象状态上有效替换的评价估计。试验显示替换学习是一个高效的学习方法。对于复杂的领域,设计者很难给出完善的互补抽象状态空间,也很难对给出的互补抽象状态空间进行评价。本文提出了状态演化的方法,基于逻辑马尔可夫决策过程nLMDP和替换学习,仅需要设计者提供任务的目标抽象状态和主体的原型行动集,主体在学习中自己组织抽象状态空间,并对他们进行评价,完成策略的学习。试验显示状态演化过程中,主体能够抓住任务的本质,获得的自组织互补抽象状态空间也是合理的。本文的主要贡献与创新:1.引入逻辑否定描述抽象状态,准确表述环境和任务;提出抽象状态空间的生成和扩展方法,为关系强化学习提供了一个构建互补抽象状态空间的简单方法。2.提出引入逻辑否定的原型行动,并形式定义了可执行抽象行动空间,为关系强化学习中主体自动获得抽象行动提供了基础。3.基于互补抽象状态空间和原型行动集,提出逻辑马尔可夫决策过程nLMDP,成为关系强化学习的一个理论模型。4.提出替换学习,实现抽象行动的在线获得,学习从原型行动到抽象状态有效替换的评价函数。5.提出状态演化的理论和方法,主体在学习最优策略过程中,也学习对环境状态的组织,最终得到互补的抽象状态空间。这也为关系强化学习提供了一个主体自组织环境状态的框架。

论文目录

致谢

摘要

Abstract

插图

表格

算法

第一章绪论

第一节人工智能

第二节机器学习

第三节强化学习

第四节关系强化学习

第五节主要工作

一、逻辑马尔可夫决策过程nLMDP

二、替换学习

三、状态演化

第六节章节安排

第二章强化学习

第一节强化学习思想

一、试错学习

二、最优控制

三、时序差分

四、现代强化学习

第二节强化学习模型

一、强化学习框架

二、马尔可夫决策过程

第三节强化学习方法

一、动态规划

二、蒙特卡罗

三、时序差分

第四节小结

第三章状态行动表示

第一节命题表示

一、线性泛化

二、梯度下降

三、决策树

第二节结构表示

一、关系表示

二、图表示

三、积木世界

第三节小结

第四章关系强化学习

第一节关系马尔可夫决策过程

一、逻辑术语

二、因子化

第二节关系回归

第三节 LOMDP

一、模型

二、学习方法

第四节其它相关工作

第五节小结

第五章逻辑马尔可夫决策过程

第一节抽象状态空间

第二节抽象行动空间

第三节逻辑马尔可夫决策过程

第四节相关工作比较

第五节小结

第六章替换学习

第一节替换评价

第二节行动自动抽象

第三节 Θ（λ）-学习

第四节试验

第五节小结

第七章状态演化

第一节目标状态

第二节新合取

第三节状态演化方法

第四节试验

第五节小结

第八章应用讨论

第一节仿真模拟

第二节任务分层

第三节向导策略

第四节背景知识

第五节小结

第九章结论与展望

第一节本文主要工作

第二节主要贡献与创新

一、逻辑马尔可夫决策过程

二、替换学习

三、状态演化

第三节进一步研究方向

参考文献

索引

发表论文

学术活动

基于逻辑马尔可夫决策过程的关系强化学习研究

论文摘要

论文目录

相关论文文献

猜你喜欢