多Agent强化学习及其应用研究

多Agent强化学习及其应用研究

论文摘要

强化学习是一种重要的机器学习方法,其特点是通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并且对环境的先验知识要求很低。多Agent强化学习是传统强化学习的改进,其利用多个Agent共同协作学习,达到并行处理的效果,减少了学习时间,加快寻找最优策略的速度。本文主要工作是设计了一种分层的多Agent强化学习模型,包括任务层,工作层,通信层和决策层。指出了模型各层的作用与实现的方法。进一步,结合多核技术,给出在多核环境下模型的实现。同时介绍了相关性能指标,可对实现后的模型进行性能评价。基于分层的多Agent强化学习的模型,本文还提出了主任务分发和子任务分配多Agent Q学习方法。前者实现了基于信息融合的决策层和加锁模式通信层;后者实现了基于信息仲裁的决策层和无锁模式通信层。两种算法分别可用于解决在多核环境下机器人路径规划和多路口交通信号控制问题。在采用主任务分发多Agent Q学习方法后,机器人路径规划仿真实验结果表明相对于单Agent Q学习方法,学习速度加快,收敛时间减小,能合理利用计算资源。在采用子任务分配多Agent Q学习方法后,多路口交通信号控制仿真实验结果表明,相对于定时控制与传统Q学习控制,车辆平均等待时间和排队数减少,交通更加通畅。所有实验结果证明了所提方法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 强化学习概述
  • 1.2 多 Agent 强化学习与多核技术
  • 1.2.1 研究背景
  • 1.2.2 研究现状
  • 1.3 本文的主要工作和组织结构
  • 第二章 强化学习简介
  • 2.1 强化学习与马尔可夫决策
  • 2.2 强化学习基本模型
  • 2.3 强化学习算法
  • 2.3.1 瞬时差分学习
  • 2.3.2 Sarsa 学习
  • 2.4 Q 学习
  • 2.5 本章小结
  • 第三章 多 Agent 强化学习
  • 3.1 多 Agent 强化学习简介
  • 3.2 多 Agent 强化学习模型
  • 3.2.1 任务层
  • 3.2.2 工作层
  • 3.2.3 通信层
  • 3.2.4 决策层
  • 3.3 多 Agent 强化学习流程
  • 3.4 与多核技术的结合
  • 3.4.1 并行随机访问机模型
  • 3.4.2 多核环境下的实现
  • 3.4.3 多核环境下性能评价标准
  • 3.5 本章小结
  • 第四章 基于主任务分发的多 Agent Q 学习
  • 4.1 基于主任务分发的多 Agent Q 学习模型
  • 4.1.1 同构环境任务层和工作层实现
  • 4.1.2 基于信息融合方式的决策层实现
  • 4.1.3 加锁模式通信层实现
  • 4.2 多核环境下的实现
  • 4.3 多 Agent Q 学习工作流程
  • 4.4 机器人路径规划应用
  • 4.4.1 仿真环境设置
  • 4.4.2 机器人行为及行为瞬时奖赏函数的设计
  • 4.5 仿真实验
  • 4.5.1 简单环境
  • 4.5.2 复杂环境
  • 4.5.3 实验总结
  • 4.6 本章小结
  • 第五章 基于子任务分配的多 Agent Q 学习
  • 5.1 基于子任务分配的多 Agent Q 学习模型
  • 5.1.1 异构环境任务层和工作层实现
  • 5.1.2 基于信息仲裁技术的决策层实现
  • 5.1.3 无锁模式通信层实现
  • 5.2 多核环境下的实现
  • 5.3 多 Agent Q 学习工作流程
  • 5.4 多路口交通信号控制应用
  • 5.4.1 仿真环境设置
  • 5.4.2 路口控制 Agent 行为状态及行为瞬时奖赏函数的设计
  • 5.4.3 仲裁 Agent 设计实现
  • 5.5 仿真实验
  • 5.5.1 低流量情况仿真
  • 5.5.2 中流量情况仿真
  • 5.5.3 高流量情况仿真
  • 5.5.4 实验分析
  • 5.6 无锁模式通信实验
  • 5.6.1 实验仿真对比
  • 5.6.2 实验小结
  • 5.7 本章小结
  • 第六章 结束语
  • 6.1 本文总结
  • 6.2 问题与展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于agent的建筑工人流动行为仿真及其对行业的影响[J]. 控制与决策 2020(01)
    • [2].基于可能回答集程序的多Agent信念协调[J]. 计算机科学 2020(02)
    • [3].基于空间Agent的舰载机群调度路径规划[J]. 兵器装备工程学报 2020(03)
    • [4].基于多Agent的海岛微电网分布式双层控制方法[J]. 电力系统及其自动化学报 2020(03)
    • [5].基于Agent建模的小群体疏散时间研究[J]. 消防科学与技术 2020(03)
    • [6].基于多Agent的地区电网智能调度系统研究与设计[J]. 科技经济导刊 2020(09)
    • [7].基于Agent人工智能技术的分布式入侵检测系统设计[J]. 计算机测量与控制 2020(07)
    • [8].基于Agent的数据链系统信息交互过程建模仿真[J]. 计算机仿真 2020(08)
    • [9].基于Agent的中压电力线载波通信组网技术[J]. 电力信息与通信技术 2017(01)
    • [10].装备保障指挥Agent框架建模[J]. 火力与指挥控制 2017(02)
    • [11].基于Agent的要地防空作战仿真研究[J]. 计算机与数字工程 2016(11)
    • [12].利用多Agent算法进行船舶电力系统网络重构模型研究及仿真[J]. 舰船科学技术 2017(04)
    • [13].基于移动Agent的网络安全管理模型的研究[J]. 网络安全技术与应用 2017(06)
    • [14].基于多Agent技术的资产管理系统[J]. 电脑知识与技术 2017(07)
    • [15].基于Agent的内部威胁实时检测框架[J]. 计算机系统应用 2017(06)
    • [16].基于Agent的麻将游戏机器人系统设计[J]. 信息系统工程 2017(05)
    • [17].基于多agent系统的大规模无人机集群对抗[J]. 控制理论与应用 2015(11)
    • [18].基于多Agent的船舶电力系统故障恢复方法[J]. 信息与控制 2015(06)
    • [19].基于Agent的信息化作战油料保障调运模型[J]. 兵器装备工程学报 2016(03)
    • [20].基于多Agent仿真的新产品推广策略研究[J]. 中国管理科学 2015(S1)
    • [21].基于Agent的羊群行为研究[J]. 中国管理科学 2015(S1)
    • [22].智能电网之中的Agent技术分析[J]. 中国新技术新产品 2016(18)
    • [23].组织中情绪氛围对隐性知识共享的影响——基于多agent的仿真研究[J]. 情报理论与实践 2016(09)
    • [24].基于多Agent的作战体系仿真模型构建[J]. 舰船电子工程 2016(10)
    • [25].基于多Agent的分布式能源并网策略[J]. 系统工程学报 2014(06)
    • [26].基于Agent的个性化元搜索引擎[J]. 河北大学学报(自然科学版) 2015(02)
    • [27].一种改进的移动Agent消息收发机制[J]. 电子商务 2015(06)
    • [28].基于信标的多Agent系统及其移动规则研究[J]. 长春理工大学学报(自然科学版) 2015(03)
    • [29].电力系统继电保护中多Agent技术的运用实践略述[J]. 科技与创新 2015(21)
    • [30].基于多Agent的微电网电压控制系统[J]. 电气开关 2015(05)

    标签:;  ;  ;  

    多Agent强化学习及其应用研究
    下载Doc文档

    猜你喜欢