多智能体协作学习方法的研究

多智能体协作学习方法的研究

论文摘要

在多Agent系统中,由于环境是动态变化的,其他Agent的行为是未知的,所以多Agent系统及系统中的每个Agent应当具备学习或自适应能力。强化学习作为一种不需要环境模型的机器学习方法,现已成为多Agent系统的研究热点。与此同时,由于单个Agent的资源和能力的有限性,需要多个Agent之间的协作来共同完成任务。本文的主要研究工作包括以下几个方面:(1)论文首先介绍了Agent和多Agent系统的研究基础,然后分别围绕多Agent学习方法、多Agent协作机制和强化学习三个方面简要阐述了多Agent协作学习的基础知识。(2)将黑板模型、融合算法以及强化学习技术相结合,提出了一种改进的多智能体协作学习方法。其中,黑板是一块共享的存储区域,可以实现信息共享;融合算法用来对共享信息进行融合;强化学习技术利用融合结果进行动作选择。(3)追捕问题是一个多Agent系统,同时存在多Agent之间的协作与竞争,被广泛用来测试人工智能领域的学习算法。本文利用追捕问题对改进的多智能体协作学习方法进行实例分析与仿真验证。实验结果表明,该方法能够有效地提高多Agent系统中Agent的协作学习能力。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究的背景及意义
  • 1.2 强化学习概述
  • 1.2.1 强化学习的发展历史
  • 1.2.2 强化学习的研究现状
  • 1.3 追捕问题概述
  • 1.3.1 追捕问题的发展背景
  • 1.3.2 追捕问题的相关研究
  • 1.3.3 追捕问题存在的问题
  • 1.4 论文研究内容及结构安排
  • 1.4.1 研究内容
  • 1.4.2 论文安排
  • 第二章 多AGENT 系统
  • 2.1 AGENT 介绍
  • 2.1.1 Agent 的定义
  • 2.1.2 Agent 的基本特性
  • 2.2 多AGENT 系统概述
  • 2.2.1 多Agent 系统的定义及特性
  • 2.2.2 多Agent 学习的研究内容
  • 2.2.3 多Agent 协作机制
  • 2.3 本章小结
  • 第三章 多AGENT 强化学习理论
  • 3.1 强化学习
  • 3.1.1 强化学习的基本原理和定义
  • 3.1.2 马尔可夫决策过程
  • 3.1.3 强化学习的基本要素
  • 3.1.4 经典的强化学习算法
  • 3.1.5 有待进一步研究的问题
  • 3.2 多AGENT 强化学习
  • 3.2.1 MARL 方法及其发展
  • 3.2.2 合作MARL
  • 3.2.3 基于对策或平衡解的MARL
  • 3.2.4 最佳响应MARL
  • 3.2.5 MARL 有待进一步解决的问题
  • 3.3 本章小结
  • 第四章 改进的多AGENT 协作学习方法
  • 4.1 多AGENT 的信息共享机制
  • 4.1.1 信息共享机制
  • 4.1.2 实例分析
  • 4.2 黑板模型
  • 4.3 对手状态预测
  • 4.3.1 预测技术的提出
  • 4.3.2 对手状态预测函数
  • 4.4 改进的多AGENT 协作学习算法
  • 4.4.1 算法框架
  • 4.4.2 算法描述
  • 4.4.3 算法说明
  • 4.5 本章小结
  • 第五章 追捕问题研究
  • 5.1 任务描述
  • 5.2 追捕流程图
  • 5.3 算法设计
  • 5.3.1 分解目标及确定子目标
  • 5.3.2 状态聚类
  • 5.3.3 动作选择策略
  • 5.3.4 设定奖赏值
  • 5.3.5 更新Q 值
  • 5.4 实验结果及其分析
  • 5.5 本章小结
  • 第六章 结论与展望
  • 6.1 结论
  • 6.2 进一步的工作
  • 参考文献
  • 致谢
  • 附录(攻读硕士学位期间发表的论文及参与的科研项目)
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    多智能体协作学习方法的研究
    下载Doc文档

    猜你喜欢