强化学习及其在MAS协同概念设计中应用的研究

强化学习及其在MAS协同概念设计中应用的研究

论文摘要

强化学习是机器学习中一个重要的研究领域。它强调在与环境的交互中学习,通过环境对不同行为的评价性反馈信号来改变强化学习系统的行为选择策略以实现学习目标。相比于监督学习、动态规划等研究方法,强化学习不需要教师信号,也不需要环境的状态转移模型,因此对于求解复杂的优化决策问题具有广阔的应用前景。强化学习在理论和算法研究方面已经取得了许多成果,成为求解序列决策优化问题的一类有效方法。从现代产品设计的特点来看,不同领域、不同地域的专家协同完成设计任务,已经成为一种普遍的设计方式。同时,计算机网络技术的快速发展,也为异地协同设计提供了有力的支持。在实际需求和信息技术快速发展的推动下,产品协同设计已经成为产品设计领域的研究热点。然而,目前关于协同设计的研究主要集中在详细设计阶段,对协同概念设计研究较少。由于概念设计是设计过程中最重要、最具创造性的阶段,因此研究协同概念设计的相关理论与技术具有深远的意义。应用强化学习方法求解协同概念设计中的有关问题,是协同概念设计研究的一个新课题。本文主要研究了采用多步信息更新值函数的多步Q学习算法、能够有效平衡智能体(Agent)选择动作时面临的新知识探索与当前策略遵循的模拟退火Metropolis准则和能够提高经验利用率、加快收敛速度的最小二乘强化学习方法,构建了基于多智能体系统(MAS)的协同概念设计系统,并将强化学习应用到该系统的任务调度和方案优化中,旨在深化强化学习在理论与应用方面的研究,促进协同概念设计技术的发展。论文所做的主要工作和研究成果如下:首先,提出了基于模拟退火Metropolis准则的多步Q学习算法。针对经典的Q学习算法收敛速度慢的问题,从两个方面进行了改进:一是改进了一步更新策略,单纯的一步更新不能充分利用经验信息,因此提出了采用多步信息更新值函数的多步Q学习算法;二是在多步Q学习算法的动作选择中引入了模拟退火中的Metropolis准则,较好地解决了Agent选择动作时面临的新知识探索还是当前策略遵循的关键问题。其次,提出了离策略的最小二乘Q(λ)算法和在策略的最小二乘SARSA(λ)算法,以及各自的改进递推算法。针对经典的Q(λ)和SARSA(λ)算法存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态—动作对值函数的最小二乘逼近模型,推导了逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了最小二乘Q(λ)和最小二乘SARSA(λ)算法。并且根据递推最小二乘参数估计方法,给出了各自的改进递推算法。由于最小二乘算法实际上是构造了强化学习问题的经验模型,因而能够加快收敛速度。再次,通过分析复杂产品协同概念设计过程的特点,提出了协同概念设计的集成模型,进而提出了基于MAS的协同概念设计系统的层次化联邦结构,设计了系统中管理Agent和设计Agent的结构。在这两类Agent中分别实现了任务调度、冲突消解、方案评价与优化、智能设计等功能。提出了适用于复杂产品概念设计的信念型承诺,给出了Agent的形式化表示,详细讨论了基于信念型承诺的Agent协作机制。该协同概念设计系统的建立为研究强化学习在其中的应用奠定了基础。最后,针对协同概念设计系统管理Agent中的任务调度和方案优化问题,提出了基于强化学习的求解方法。任务调度问题是协同设计的重要内容之一,目前的方法大多存在算法效率较低、收敛于局部最优解等缺点。本文建立了调度问题的马尔可夫决策过程(MDP)模型,从理论上证明了采用强化学习求解调度问题的可行性,给出了基于Q学习和Q(λ)学习的任务调度算法,从而为有向无环图(DAG)调度提供了一种新解法。现有的概念设计方案优化方法存在组合爆炸问题,因此难以对组合出来的方案逐一评价并获得最优方案解。本文引入了状态之间距离的概念,将方案优化问题建模为MDP模型,给出了基于Q学习的方案优化算法,应用实例表明了该方法的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 1.绪论
  • 1.1.课题背景与意义
  • 1.2.强化学习的基本原理及其与相关学科关系
  • 1.2.1.强化学习的基本原理
  • 1.2.2.强化学习研究的相关学科背景
  • 1.3.强化学习研究现状
  • 1.3.1.强化学习的发展历史
  • 1.3.2.经典的强化学习算法及其发展
  • 1.3.3.强化学习的应用研究
  • 1.3.4.有待进一步研究的问题
  • 1.4.基于MAS的协同概念设计研究现状
  • 1.4.1.协同概念设计的内涵
  • 1.4.2.MAS概述
  • 1.4.3.基于MAS的协同概念设计
  • 1.5.论文组织结构
  • 1.6.本文的主要成果和创新点
  • 2.基于模拟退火Metropolis准则的多步Q强化学习
  • 2.1.引言
  • 2.2.MDP与动态规划
  • 2.2.1.MDP模型
  • 2.2.2.Bellman最优性原理
  • 2.2.3.值迭代与策略迭代
  • 2.3.强化学习的经典算法
  • 2.3.1.TD学习算法
  • 2.3.2.Q学习
  • 2.3.3.Q(λ)学习
  • 2.3.4.参数λ的意义
  • 2.4.多步Q强化学习算法
  • 2.4.1.算法提出
  • 2.4.2.算法分析
  • 2.4.3.k值的确定
  • 2.4.4.仿真试验
  • 2.5.基于Metropolis准则的多步Q强化学习算法
  • 2.5.1.模拟退火算法
  • 2.5.2.结合Metropolis准则的多步Q学习算法
  • 2.5.3.算法分析
  • 2.5.4.仿真实验
  • 2.6.本章小结
  • 3.基于最小二乘的强化学习
  • 3.1.引言
  • 3.2.值函数逼近
  • 3.2.1.函数逼近的TD学习
  • 3.2.2.函数逼近的Q(λ)算法
  • 3.3.最小二乘Q(λ)强化学习方法
  • 3.3.1.最小二乘Q(λ)学习
  • 3.3.2.递推最小二乘Q(λ)学习
  • 3.3.3.算法分析
  • 3.3.4.仿真实验与结果分析
  • 3.4.最小二乘SARSA(λ)算法
  • 3.4.1.强化学习的SARSA(λ)算法
  • 3.4.2.最小二乘SARSA(λ)算法
  • 3.4.3.递推最小二乘SARSA(λ)学习
  • 3.4.4.仿真实验与结果分析
  • 3.4.5.最小二乘Q(λ)和SARSA(λ)算法的对比
  • 3.5.本章小结
  • 4.基于MAS的协同概念设计系统研究
  • 4.1.引言
  • 4.2.协同概念设计的特点与模型
  • 4.2.1.协同概念设计的特点
  • 4.2.2.协同概念设计的集成模型
  • 4.2.3.基于MAS的协同概念设计系统的总体思想
  • 4.3.协同概念设计系统的Agent建模方法
  • 4.4.基于MAS的协同概念设计系统
  • 4.4.1.系统体系结构
  • 4.4.2.管理Agent
  • 4.4.3.设计Agent
  • 4.5.基于信念型承诺的Agent协作机制
  • 4.5.1.通用部分全局规划概述
  • 4.5.2.信念型承诺的提出
  • 4.5.3.基于信念型承诺的Agent协作机制
  • 4.5.4.基于信念型承诺的Agent协作在协同概念设计系统中的应用
  • 4.6.基于MAS的协同概念设计系统实现
  • 4.7.本章小结
  • 5.强化学习在协同概念设计系统中的应用
  • 5.1.引言
  • 5.2.协同设计任务调度的强化学习方法研究
  • 5.2.1.任务调度问题的研究现状分析
  • 5.2.2.协同设计任务调度问题描述
  • 5.2.3.任务调度问题的MDP模型
  • 5.2.4.任度调度的强化学习算法
  • 5.2.5.应用实例与分析
  • 5.3.强化学习在协同概念设计方案优化中的应用
  • 5.3.1.方案优化问题的MDP模型
  • 5.3.2.基于强化学习的方案优化算法
  • 5.3.3.应用实例分析
  • 5.4.本章小结
  • 6.结束语
  • 致谢
  • 参考文献
  • 攻读博士学位期间发表和录用的论文
  • 相关论文文献

    • [1].基于MAS的电网故障诊断架构研究[J]. 国网技术学院学报 2016(05)
    • [2].基于MAS的农机系统组成与结构研究[J]. 农机化研究 2016(10)
    • [3].MAS技术在医院数字图书馆建设中的应用研究[J]. 中国数字医学 2015(09)
    • [4].硫酸镁对新生儿胎粪吸入综合征(MAS)的治疗作用[J]. 中国医药指南 2013(28)
    • [5].基于MAS的分布式测试诊断技术在某装备系统中的应用[J]. 电子技术与软件工程 2015(07)
    • [6].机械通气用于新生儿胎粪吸入综合征(MAS)所致呼吸衰竭的效果评价[J]. 当代医学 2015(21)
    • [7].基于MAS的五阶闭环供应链仿真及实现[J]. 物流技术 2015(19)
    • [8].基于MAS的冷链物流系统协调机制研究[J]. 食品工业科技 2010(05)
    • [9].基于MAS的逆向物流库存控制模型研究[J]. 微计算机信息 2009(32)
    • [10].基于MAS的情报处理系统可行性分析与设计[J]. 现代情报 2008(01)
    • [11].A型肉毒素治疗双下肢痉挛性脑瘫患儿的临床效果及MAS评分分析[J]. 临床合理用药杂志 2017(05)
    • [12].基于MAS的船舶修理企业生产管理模型研究[J]. 工业工程与管理 2014(06)
    • [13].MAS中一种基于稳定性的直接信任计算方法[J]. 南京工程学院学报(自然科学版) 2015(02)
    • [14].MAS技术下的海洋平台项目重量控制系统[J]. 哈尔滨工程大学学报 2015(10)
    • [15].MAS在群组机器人围捕系统中的分析及设计[J]. 忻州师范学院学报 2013(05)
    • [16].基于MAS服务的有序用电信息发布研究与应用[J]. 江苏电机工程 2014(02)
    • [17].基于MAS兴趣模型的搜索引擎设计[J]. 计算机与信息技术 2009(04)
    • [18].基于MAS的小电流接地系统单相接地故障选线方法研究[J]. 安徽电力 2009(02)
    • [19].基于MAS的舰载机动态调度模型[J]. 航空学报 2009(11)
    • [20].基于MAS车间调度系统模型的设计[J]. 中国新技术新产品 2009(22)
    • [21].基于MAS的智能决策支持系统研究[J]. 电脑知识与技术 2008(35)
    • [22].基于MAS的物流信息系统网络模型研究[J]. 才智 2008(11)
    • [23].基于MAS的校园卡短信平台的研究与设计[J]. 开封大学学报 2020(02)
    • [24].MAS在高校教育教学过程质量监控系统中的应用[J]. 中国电力教育 2014(08)
    • [25].基于MAS的城轨交通客流预测系统研究[J]. 计算机工程与设计 2011(02)
    • [26].用于供应链运作的MAS分布式仿真平台建模研究[J]. 系统仿真学报 2009(19)
    • [27].基于MAS的多机械手协调工作控制[J]. 哈尔滨工业大学学报 2009(12)
    • [28].基于MAS的在轨服务航天器任务分派研究[J]. 装备指挥技术学院学报 2009(04)
    • [29].分子标记辅助选择(MAS)在玉米抗逆育种中的应用[J]. 吉林农业大学学报 2018(04)
    • [30].基于在线自组织同步MAS的电网广域保护系统[J]. 电力系统保护与控制 2015(03)

    标签:;  ;  ;  ;  ;  ;  ;  

    强化学习及其在MAS协同概念设计中应用的研究
    下载Doc文档

    猜你喜欢