基于逻辑马尔可夫决策过程的关系强化学习研究

基于逻辑马尔可夫决策过程的关系强化学习研究

论文摘要

目前普遍认为智能主体应当具有学习能力,能够把握和适应动态环境的变化。在没有任何老师指导的情况下,强化学习让主体尝试行动,在与环境交互过程中试错,根据收集到的环境反馈,对尝试的行动进行评价,最终把握环境并学会行动决策以适应环境。以马尔可夫决策过程为基础,近年来提出了很多强化学习方法,获得了很大的进展,对以特性向量表示的状态也有了充分的研究。然而特性向量这种命题表示法,很难表示环境中的关系信息,特别是有大量物体,物体之间又有很多关系的领域。为了把强化学习方法应用到这些复杂的环境,最近提出了以关系表示为基础的关系强化学习,研究在用关系逻辑表示环境的状态和主体的行动时,如何进行学习,以及如何对环境状态进行抽象以把握环境。用常原子表示的环境基本状态空间巨大,需要使用适当的有变量的抽象状态表示方法来把握环境。最近提出了一些关系强化学习的方法和模型,但对关系强化学习问题本身还缺乏透彻的理解,关系强化学习的理论也很不充分。本文在简单的仅用原子表示的逻辑马尔可夫决策过程LOMDP的基础上,提出了带否定词的逻辑马尔可夫决策过程nLMDP,并基于该模型,提出了替换学习方法及状态演化方法。在逻辑马尔可夫决策过程nLMDP中,首次引入了逻辑否定,用来准确的描述环境和任务。然后又提出了抽象状态空间的生成方法和扩展方法,从一个准确描述的的目标抽象状态开始,使用一次生成方法和多次扩展方法,可以让设计者很容易的得到一个规模适度的互补抽象状态空间,即每个基本状态只有一个抽象状态来表示,所有的抽象状态又能表示所有的基本状态。本文也提出了原型行动,以表示环境内主体的基本行动方式,是抽象行动上的更高抽象。原型行动中同样引入了逻辑否定表示行动的执行条件,根据原型行动和互补的抽象状态空间,可以很容易得到抽象状态上的可执行抽象行动。逻辑马尔可夫决策过程nLMDP基于互补的抽象状态空间和原型行动集构建。基于nLMDP,本文提出了替换学习(θ(λ))方法,实现了主体在线自动获得抽象行动,并完成对原型行动到抽象状态上有效替换的评价估计。试验显示替换学习是一个高效的学习方法。对于复杂的领域,设计者很难给出完善的互补抽象状态空间,也很难对给出的互补抽象状态空间进行评价。本文提出了状态演化的方法,基于逻辑马尔可夫决策过程nLMDP和替换学习,仅需要设计者提供任务的目标抽象状态和主体的原型行动集,主体在学习中自己组织抽象状态空间,并对他们进行评价,完成策略的学习。试验显示状态演化过程中,主体能够抓住任务的本质,获得的自组织互补抽象状态空间也是合理的。本文的主要贡献与创新:1.引入逻辑否定描述抽象状态,准确表述环境和任务;提出抽象状态空间的生成和扩展方法,为关系强化学习提供了一个构建互补抽象状态空间的简单方法。2.提出引入逻辑否定的原型行动,并形式定义了可执行抽象行动空间,为关系强化学习中主体自动获得抽象行动提供了基础。3.基于互补抽象状态空间和原型行动集,提出逻辑马尔可夫决策过程nLMDP,成为关系强化学习的一个理论模型。4.提出替换学习,实现抽象行动的在线获得,学习从原型行动到抽象状态有效替换的评价函数。5.提出状态演化的理论和方法,主体在学习最优策略过程中,也学习对环境状态的组织,最终得到互补的抽象状态空间。这也为关系强化学习提供了一个主体自组织环境状态的框架。

论文目录

  • 致谢
  • 摘要
  • Abstract
  • 目录
  • 插图
  • 表格
  • 算法
  • 第一章 绪论
  • 第一节 人工智能
  • 第二节 机器学习
  • 第三节 强化学习
  • 第四节 关系强化学习
  • 第五节 主要工作
  • 一、逻辑马尔可夫决策过程nLMDP
  • 二、替换学习
  • 三、状态演化
  • 第六节 章节安排
  • 第二章 强化学习
  • 第一节 强化学习思想
  • 一、试错学习
  • 二、最优控制
  • 三、时序差分
  • 四、现代强化学习
  • 第二节 强化学习模型
  • 一、强化学习框架
  • 二、马尔可夫决策过程
  • 第三节 强化学习方法
  • 一、动态规划
  • 二、蒙特卡罗
  • 三、时序差分
  • 第四节 小结
  • 第三章 状态行动表示
  • 第一节 命题表示
  • 一、线性泛化
  • 二、梯度下降
  • 三、决策树
  • 第二节 结构表示
  • 一、关系表示
  • 二、图表示
  • 三、积木世界
  • 第三节 小结
  • 第四章 关系强化学习
  • 第一节 关系马尔可夫决策过程
  • 一、逻辑术语
  • 二、因子化
  • 第二节 关系回归
  • 第三节 LOMDP
  • 一、模型
  • 二、学习方法
  • 第四节 其它相关工作
  • 第五节 小结
  • 第五章 逻辑马尔可夫决策过程
  • 第一节 抽象状态空间
  • 第二节 抽象行动空间
  • 第三节 逻辑马尔可夫决策过程
  • 第四节 相关工作比较
  • 第五节 小结
  • 第六章 替换学习
  • 第一节 替换评价
  • 第二节 行动自动抽象
  • 第三节 Θ(λ)-学习
  • 第四节 试验
  • 第五节 小结
  • 第七章 状态演化
  • 第一节 目标状态
  • 第二节 新合取
  • 第三节 状态演化方法
  • 第四节 试验
  • 第五节 小结
  • 第八章 应用讨论
  • 第一节 仿真模拟
  • 第二节 任务分层
  • 第三节 向导策略
  • 第四节 背景知识
  • 第五节 小结
  • 第九章 结论与展望
  • 第一节 本文主要工作
  • 第二节 主要贡献与创新
  • 一、逻辑马尔可夫决策过程
  • 二、替换学习
  • 三、状态演化
  • 第三节 进一步研究方向
  • 参考文献
  • 索引
  • 发表论文
  • 学术活动
  • 相关论文文献

    • [1].基于多状态空间的动态重构系统安全分析技术[J]. 系统工程与电子技术 2014(02)
    • [2].基于状态空间分类的股市周内效应实证分析[J]. 统计与决策 2013(21)
    • [3].4种基本状态空间实现的关系[J]. 上海师范大学学报(自然科学版) 2010(06)
    • [4].分布式状态空间生成的设计与实现[J]. 计算机工程与应用 2009(32)
    • [5].问题有解与状态空间图的核为有界格的等价性理论[J]. 计算机工程与应用 2008(09)
    • [6].树型状态空间问题的回溯法C语言编程模式[J]. 长江大学学报(自科版) 2013(28)
    • [7].分数阶状态空间系统的稳定性分析及其在分数阶混沌控制中的应用[J]. 物理学报 2011(04)
    • [8].一般状态空间马氏链返回时的矩[J]. 安徽师范大学学报(自然科学版) 2015(04)
    • [9].非齐次的一般状态空间下的遗传算法收敛性分析[J]. 科协论坛(下半月) 2012(04)
    • [10].一般非线性自回归模型的遍历性与几何遍历性[J]. 西南师范大学学报(自然科学版) 2009(04)
    • [11].基于状态空间理论的砼重力坝振动响应分析[J]. 中国农村水利水电 2016(11)
    • [12].基于非均匀变异算子的状态空间进化算法[J]. 计算机技术与发展 2018(09)
    • [13].一般状态空间马氏过程随机泛函的矩[J]. 数学的实践与认识 2015(01)
    • [14].一般状态空间跳过程的遍历性[J]. 数学物理学报 2014(04)
    • [15].状态空间设计法的并网逆变器的控制策略[J]. 工业仪表与自动化装置 2013(01)
    • [16].基于变维度状态空间的增量启发式路径规划方法研究[J]. 自动化学报 2013(10)
    • [17].基于精简状态空间的攻击图生成算法[J]. 计算机应用研究 2009(12)
    • [18].基于支持向量机的连续状态空间Q学习[J]. 中国矿业大学学报 2008(01)
    • [19].一般状态空间马氏链随机泛函的矩[J]. 数学的实践与认识 2016(05)
    • [20].一般状态空间跳过程的正则性[J]. 数学年刊A辑(中文版) 2014(06)
    • [21].一般状态空间马氏链的指数矩[J]. 四川师范大学学报(自然科学版) 2015(03)
    • [22].一般状态空间跳过程的不可约性[J]. 数学杂志 2015(03)
    • [23].基于有效状态空间的多状态网络可靠性评估[J]. 系统工程理论与实践 2011(S2)
    • [24].基于状态空间连续逼近的云计算虚拟资源优化配置研究[J]. 电信科学 2012(10)
    • [25].一般状态空间马氏链随机泛函的指数矩[J]. 数学杂志 2017(01)
    • [26].复杂串联系统的状态空间生成的形式化分析[J]. 计算机工程与科学 2009(S1)
    • [27].基于污点状态空间的脆弱性可疑点定位方法[J]. 计算机应用研究 2015(01)
    • [28].一般状态空间马氏过程随机泛函的指数矩[J]. 湖北大学学报(自然科学版) 2015(05)
    • [29].基于状态空间神经网络的短期公交调度模型[J]. 交通运输工程与信息学报 2010(03)
    • [30].单群A_5的状态空间图[J]. 西南大学学报(自然科学版) 2016(08)

    标签:;  ;  ;  ;  

    基于逻辑马尔可夫决策过程的关系强化学习研究
    下载Doc文档

    猜你喜欢