基于多智能体间协作模型及其学习方法研究

论文摘要

在多Agent系统中,由于环境是动态变化的,其它Agent的行为是未知的,所以多Agent系统及系统中的每个Agent应当具备学习或自适应能力。强化学习作为一种无需要环境模型的机器学习方法,现已成为多Agent系统的研究热点。与此同时,由于单个Agent的资源和能力的有限性,需要多个Agent之间的协作来共同完成任务。本文的主要研究工作包括以下几个方面：(1)论文首先介绍了Agent和多Agent系统的研究基础,然后分别围绕多Agent学习方法、多Agent协作机制和强化学习三个方面简要阐述了多Agent协作学习的基础知识。(2)将预测加速抉择机制、黑板模型、融和算法以及强化学习技术相结合,提出了一种改进的多智能体协作学习方法及其模型。其中,黑板是一块共享的存储区域,可以实现信息共享；融和算法用来对信息进行融和；强化学习技术利用融和结果进行动作选择。(3)追捕问题是一个多Agent系统,同时存在多Agent之间的协作与竞争,被广泛用来测试人工智能领域的学习算法。本文利用追捕问题对改进的多智能体协作学习方法进行实例分析与仿真验证。实验结果表明,该方法能够有效地提高多Agent系统中Agent的协作学习能力。

论文目录

摘要

Abstract

1 绪论

1.1 研究的必要性和背景

1.2 强化学习概述

1.3 追捕问题描述

1.3.1 追捕问题的发展背景

1.3.2 追捕问题概述

1.3.3 分析追捕问题存在的问题

1.4 论文研究内容及结构安排

1.4.1 研究内容

1.4.2 结构安排

2 多AGENT系统

2.1 AGENT介绍

2.1.1 Agent的定义

2.1.2 Agent的基本特性

2.2 多Agent系统概述

2.2.1 多Agent系统的定义及特性

2.2.2 多Agent学习的研究内容

2.2.3 多Agent协作机制

2.3 本章小结

3 多AGENT强化学习理论

3.1 强化学习

3.1.1 强化学习的基本原理和定义

3.1.2 马尔可夫决策过程

3.1.3 强化学习的基本要素

3.1.4 经典的强化学习算法

3.1.5 有待进一步研究的问题

3.2 多AGENT强化学习

3.2.1 MARL方法及其发展

3.2.2 合作MARL

3.2.3 基于对策或平衡解的MARL

3.2.4 最佳响应MARL

3.2.5 MARL有待进一步解决的问题

3.3 本章小结

4 改进的多AGENT协作学习方法

4.1 多AGENT的信息共享机制

4.1.1 信息共享机制

4.1.2 实例分析

4.2 黑板模型

4.3 对手状态预测

4.3.1 PA-BDI-AGENT预测技术

4.3.2 对手状态预测函数

4.4 改进的多AGENT协作学习算法

4.4.1 算法框架

4.4.2 算法描述

4.4.3 算法说明

4.5 本章小结

5 捕追问题研究

5.1 任务描述

5.2 追捕流程图

5.3 算法设计

5.3.1 分解目标及确定子目标

5.3.2 状态聚类

5.3.3 设定奖赏值

5.3.4 更新Q值

5.4 实验结果及其分析

5.5 本章小结

结论

致谢

参考文献

攻读学位期间的研究成果

相关论文文献

[1].基于蒙特卡洛Q值函数的多智能体决策方法[J]. 控制与决策 2020(03)
[2].多智能体深度强化学习研究综述[J]. 计算机工程与应用 2020(05)
[3].多智能体路径规划研究进展[J]. 计算机工程 2020(04)
[4].数据驱动的多智能体网络鲁棒包容控制[J]. 控制理论与应用 2020(09)
[5].基于雷达观测的多智能体编队协作式目标跟踪[J]. 指挥信息系统与技术 2020(04)
[6].基于多智能体的配电台区智能决策系统研究[J]. 信息技术 2020(10)
[7].多智能体集合的人机交互指控系统架构研究[J]. 中国管理信息化 2020(20)
[8].多智能体聚集问题研究综述[J]. 计算机应用研究 2019(06)
[9].多智能体强化学习综述[J]. 计算机科学 2019(08)
[10].基于多智能体的编队控制一致性研究[J]. 科技创新与应用 2016(35)
[11].新时期物联网环境下多智能体决策信息技术[J]. 山西农经 2016(14)
[12].牵引控制间歇通讯多智能体网络的一致性[J]. 信息与控制 2017(02)
[13].基于切换拓扑的多智能体协作控制研究综述[J]. 计算机应用研究 2019(04)
[14].基于事件触发机制的多智能体网络平均一致性研究[J]. 计算机应用研究 2017(03)
[15].多智能体协调控制的演化博弈方法[J]. 系统科学与数学 2016(03)
[16].多智能体模型用于土地利用演变模拟研究进展[J]. 江西科学 2015(01)
[17].具有多变时滞的多智能体复杂动态网络的平均一致性[J]. 郧阳师范高等专科学校学报 2013(06)
[18].分布式优化的多智能体方法[J]. 控制理论与应用 2019(11)
[19].一种基于多智能体强化学习的流量分配算法[J]. 北京邮电大学学报 2019(06)
[20].一种高效率的多智能体协作学习通信机制[J]. 信息安全研究 2020(04)
[21].基于时滞脉冲控制的二阶多智能体一致性分析[J]. 莆田学院学报 2020(02)
[22].正实特征值切换拓扑的一般线性多智能体动态系统稳定性[J]. Engineering 2020(06)
[23].支持强化学习多智能体的网电博弈仿真平台[J]. 指挥与控制学报 2019(01)
[24].鲁棒优化与多智能体协调的电梯群控调度[J]. 中国新通信 2017(12)
[25].基于多智能体遗传算法的配电网节能降耗综合管理系统[J]. 湖南大学学报(自然科学版) 2016(04)
[26].事件触发控制背景下的二阶多智能体一致性探究[J]. 数学学习与研究 2019(03)
[27].主从多智能体网络快速随机一致性[J]. 山东大学学报(理学版) 2014(01)
[28].大规模多智能体仿真平台设计方法的研究[J]. 中国科学技术大学学报 2012(08)
[29].离散时间混合多智能体的拟平均一致性控制[J]. 智能系统学报 2012(04)
[30].基于多智能体社会的僵尸网络协同防御模型[J]. 微电子学与计算机 2011(03)

标签：预测加速技术论文; 多智能体系统论文; 强化学习论文; 黑板模型论文; 追捕问题论文;

基于多智能体间协作模型及其学习方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢