激励学习的若干新算法及其理论研究

激励学习的若干新算法及其理论研究

论文摘要

本博士论文大体上可以分成两大部分,第一部分我们给出了激励学习的一些新算法,其目的是为了改进现有算法所面临的诸于维数灾难与计算速度等问题。第二部分是我们在基于风险敏感度概念的基础上,研究了与激励学习有关的最优方程与最优解的理论问题。本论文首先提出了一种新的激励学习算法,即我们所说的激励学习的遗忘算法。这种算法的基本思想是基于下面的考虑:以前的有关激励学习算法都只是通过对状态被访问次数的短时记忆来确定状态值函数空间的更新长度。对于这些算法来说,无论是用lookup表的形式,还是用函数逼近器的形式,对所有状态的值函数都必须要全部记忆。这些方法对大状态空间问题会导致需要指数增长的记忆容量,从而呈指数地减慢计算速度。Sutton等人考虑过这个问题,但始终没有得到满意的解决方案。基于上述考虑,将记忆心理学中有关遗忘的基本原理引入值函数的激励学习算法的研究之中,特别是对于著名的SARSA(λ)算法,形成了一类适合于值函数激励学习的遗忘算法。我们提出了基于效用聚类的激励学习算法。这种算法的模型使用了POMDP的某些概念。在激励学习的诸多算法中,把非常多的精力集中在如何对系统的大状态空间进行有效的分解,其中U-Tree算法是其之一。但是,由于U-Tree算法的一个最大的问题是边缘节点生成的随意性和统计检验的计算负担,各种扩展方法都没有解决这个问题。本文提出了一种新的效用聚类激励学习算法,即我们称之为U-Clustering算法。该算法完全不用进行边缘节点的生成和测试,克服了上述提及的U-Tree算法的致命弱点。我们的新算法首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为新的叶节点。实验与仿真结果表明,我们的新算法比一般的U-Tree算法更有效。针对具有大状态空间的环境系统以及系统状态不完全可观测所面临的问题,本论文提出了求解部分可观测Markov决策过程的动态合并算法。这个方法利用区域这个概念,在环境状态空间上建立一个区域系统,而Agent在区域系统的每个区域上独自实现其最优目标,就好像有若干个Agent在并行工作一样。然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解。另外还对提出的算法进行了复杂度分析和仿真实验。通过对New York Driving的仿真和算法的实验分析,结果表明动态合并算法对于大状态空间上的求解问题是一个非常有效的算法。本文提出了风险敏感度的激励学习广义平均算法。这个算法通过潜在地牺牲解的最优性来获取鲁棒性(Robustness)。提出这种算法的主要原因是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的“可使用性”随时间的变化而变化时,那么鲁棒性就可能成为一个十分重要的问题。我们利用广义平均算子来替代最大算子max(或sup),对激励学习问题中的动态规划算法进行了研究,并讨论了它们的收敛性,目的就是为了提高激励学习算法的鲁棒性。我们提出了风险敏感度渐进策略递归激励学习算法并对策略的最优性进行了讨论。当系统的计算出现维数灾难时,比如在Markov决策过程的求解问题中,如果系统的动作空间非常之大,那么利用一般的策略递归(PI)算法或值递归(Ⅵ)算法,来进行策略的改进计算是不实际的。我们这个算法所关注的问题是,当状态空间相对较小而动作空间非常之大时如何得到最优策略或好的策略。在本算法的策略改进过程中,不需在整个动作空间上对值函数进行最大化运算,而是通过策略转换的方法来直接处理策略问题的。本文的另一个主要内容是,我们对多时间尺度风险敏感度Markov决策过程的最优方程与解的最优性问题进行了初步研究。由于需要使智能体能够适应更加复杂的环境,因此大规模控制问题在实际应用中显得越来越重要。在本章中采用了一种更加符合实际情况的复杂环境,即多时间尺度下的Markov决策过程模型,并利用风险敏感度的概念,第一次提出了多时间尺度风险敏感度Markov决策过程的概念。这是一个全新的问题。我们利用效用函数和风险敏感度等概念,讨论了二时间尺度风险敏感度Markov决策问题,然后给出了二时间尺度风险敏感度Markov决策过程的Bellman最优控制方程的一般形式,并证明了最优值函数满足这个Bellman最优控制方程,同时还得到了一些相关的结论。本博士论文所讨论的都是现阶段关于激励学习的热点和难点问题。激励学习方法已经成为控制理论与人工智能研究的最重要的分支之一,还有许多问题亟待解决。在本文的最末,我们给出了对这些问题的研究方向和未来的工作,希望能起到抛砖引玉的作用。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 引言
  • 1.2 问题的提出与本研究的意义
  • 1.3 国内外关于激励学习的研究历史与现状
  • 1.4 本博士论文所做的工作
  • 第二章 激励学习算法与Markov决策过程
  • 2.1 引言
  • 2.2 激励学习
  • 2.2.1 激励学习的概念
  • 2.2.2.激励学习的常规算法
  • 2.3 Markov决策过程(MDP)
  • 2.3.1 Markov决策过程的定义
  • 2.3.2 求解Markov决策过程的动态规划方法
  • 2.3.3 策略递归算法
  • 2.3.4 几种常用的最优准则
  • 2.3.5 几种常规的激励学习算法
  • 2.4 部分可观测Markov决策过程(POMDP)
  • 2.5 小结
  • 第三章 激励学习的遗忘算法
  • 3.1 引言
  • 3.2 问题的背景
  • 3.3 离线策略和在线策略算法
  • 3.4 SARSA(λ)算法
  • 3.5 遗忘准则和Forget-SARSA(λ)
  • 3.5.1 遗忘准则
  • 3.5.2 Forget-SARSA(λ)算法
  • 3.5.3 算法性质分析
  • 3.5.4 存在的问题和解决办法
  • 3.5.5 与限制搜索算法的区别
  • 3.6 迷宫实验
  • 3.7 杆平衡(pole balancing)实验
  • 3.8 平均渐近遗忘TD(λ)算法
  • 3.8.1 平均渐近瞬时差分学习算法
  • 3.8.2 基于平均渐近TD(λ)的遗忘算法
  • 3.9 结论与未来的工作
  • 第四章 基于效用聚类的激励学习算法
  • 4.1 引言
  • 4.2 U-Tree算法
  • 4.3 效用聚类算法U—Clustering
  • 4.3.1 U-Clustering算法的基本原理
  • 4.3.2 U-Clustering算法的执行步骤
  • 4.4 仿真研究
  • 4.4.1 基本环境描述与复杂性分析
  • 4.4.2 基本环境仿真实验
  • 4.4.3 限制环境仿真实验
  • 4.5 结论与未来的工作
  • 第五章 部分可观测Markov决策过程的动态合并算法
  • 5.1 引言
  • 5.2 POMDP模型
  • 5.3 区域可观测的POMDP
  • 5.3.1 辅助系统
  • 5.3.2 区域系统
  • 5.4 合成的部分可观测Markov决策过程
  • 5.4.1 多目标Markov决策过程
  • 5.4.2 合成的部分可观测Markov决策过程
  • 5.5 动态合并算法
  • 5.5.1 动态合并问题
  • 5.5.2 动态合并算法
  • 5.6 实验与仿真
  • 5.6.1 基本环境仿真实验
  • 5.6.2 限制环境仿真实验
  • 5.7 结论与展望
  • 第六章 风险敏感度Markov决策过程
  • 6.1 引言
  • 6.2 概念与决策模型
  • 6.3 效用函数
  • 6.4 性能指标与最优方程
  • 6.7 小结
  • 第七章 风险敏感度的激励学习广义平均算法
  • 7.1 引言
  • 7.2 概念与模型
  • 7.2.1 风险敏感度动态规划算法与Bellman方程
  • 7.2.2 关于广义平均的一些基本结论
  • 7.3 基于动态规划风险敏感度的递归不动点
  • 7.4 策略空间的最优性
  • 7.5 结论与未来的工作
  • 第八章 风险敏感度渐进策略递归激励学习算法
  • 8.1 引言
  • 8.2 背景模型
  • 8.3 基于风险敏感度的渐进策略递归
  • 8.3.1 算法描述
  • 8.3.2 初始化与策略选择
  • 8.3.3 策略转换
  • 8.3.4 策略变异
  • 8.3.5 子策略组的结构与停止规则
  • 8.3.6 收敛性
  • 8.4 算法的并行化处理
  • 8.5 结论与将来的工作
  • 第九章 多时间尺度风险敏感度Markov决策过程的最优方程与解的最优性问题
  • 9.1 引言
  • 9.2 多时间尺度风险敏感度Markov决策过程
  • 9.3 最优方程与解的最优性条件
  • 9.4 结论与未来的工作
  • 第十章 结论与对未来研究的展望
  • 参考文献
  • 作者在攻读博士学位期间公开发表的以及与博士论文有关的论文
  • 作者在攻读博士学位期间所参与的科研项目
  • 致谢
  • 相关论文文献

    • [1].基于多状态空间的动态重构系统安全分析技术[J]. 系统工程与电子技术 2014(02)
    • [2].基于状态空间分类的股市周内效应实证分析[J]. 统计与决策 2013(21)
    • [3].4种基本状态空间实现的关系[J]. 上海师范大学学报(自然科学版) 2010(06)
    • [4].分布式状态空间生成的设计与实现[J]. 计算机工程与应用 2009(32)
    • [5].问题有解与状态空间图的核为有界格的等价性理论[J]. 计算机工程与应用 2008(09)
    • [6].树型状态空间问题的回溯法C语言编程模式[J]. 长江大学学报(自科版) 2013(28)
    • [7].分数阶状态空间系统的稳定性分析及其在分数阶混沌控制中的应用[J]. 物理学报 2011(04)
    • [8].一般状态空间马氏链返回时的矩[J]. 安徽师范大学学报(自然科学版) 2015(04)
    • [9].非齐次的一般状态空间下的遗传算法收敛性分析[J]. 科协论坛(下半月) 2012(04)
    • [10].一般非线性自回归模型的遍历性与几何遍历性[J]. 西南师范大学学报(自然科学版) 2009(04)
    • [11].基于状态空间理论的砼重力坝振动响应分析[J]. 中国农村水利水电 2016(11)
    • [12].基于非均匀变异算子的状态空间进化算法[J]. 计算机技术与发展 2018(09)
    • [13].一般状态空间马氏过程随机泛函的矩[J]. 数学的实践与认识 2015(01)
    • [14].一般状态空间跳过程的遍历性[J]. 数学物理学报 2014(04)
    • [15].状态空间设计法的并网逆变器的控制策略[J]. 工业仪表与自动化装置 2013(01)
    • [16].基于变维度状态空间的增量启发式路径规划方法研究[J]. 自动化学报 2013(10)
    • [17].基于精简状态空间的攻击图生成算法[J]. 计算机应用研究 2009(12)
    • [18].基于支持向量机的连续状态空间Q学习[J]. 中国矿业大学学报 2008(01)
    • [19].一般状态空间马氏链随机泛函的矩[J]. 数学的实践与认识 2016(05)
    • [20].一般状态空间跳过程的正则性[J]. 数学年刊A辑(中文版) 2014(06)
    • [21].一般状态空间马氏链的指数矩[J]. 四川师范大学学报(自然科学版) 2015(03)
    • [22].一般状态空间跳过程的不可约性[J]. 数学杂志 2015(03)
    • [23].基于有效状态空间的多状态网络可靠性评估[J]. 系统工程理论与实践 2011(S2)
    • [24].基于状态空间连续逼近的云计算虚拟资源优化配置研究[J]. 电信科学 2012(10)
    • [25].一般状态空间马氏链随机泛函的指数矩[J]. 数学杂志 2017(01)
    • [26].复杂串联系统的状态空间生成的形式化分析[J]. 计算机工程与科学 2009(S1)
    • [27].基于污点状态空间的脆弱性可疑点定位方法[J]. 计算机应用研究 2015(01)
    • [28].一般状态空间马氏过程随机泛函的指数矩[J]. 湖北大学学报(自然科学版) 2015(05)
    • [29].基于状态空间神经网络的短期公交调度模型[J]. 交通运输工程与信息学报 2010(03)
    • [30].单群A_5的状态空间图[J]. 西南大学学报(自然科学版) 2016(08)

    标签:;  ;  ;  ;  ;  

    激励学习的若干新算法及其理论研究
    下载Doc文档

    猜你喜欢