论文摘要
在多Agent系统中,由于环境是动态变化的,其他Agent的行为是未知的,所以多Agent系统及系统中的每个Agent应当具备学习或自适应能力。强化学习作为一种不需要环境模型的机器学习方法,现已成为多Agent系统的研究热点。与此同时,由于单个Agent的资源和能力的有限性,需要多个Agent之间的协作来共同完成任务。本文的主要研究工作包括以下几个方面:(1)论文首先介绍了Agent和多Agent系统的研究基础,然后分别围绕多Agent学习方法、多Agent协作机制和强化学习三个方面简要阐述了多Agent协作学习的基础知识。(2)将黑板模型、融合算法以及强化学习技术相结合,提出了一种改进的多智能体协作学习方法。其中,黑板是一块共享的存储区域,可以实现信息共享;融合算法用来对共享信息进行融合;强化学习技术利用融合结果进行动作选择。(3)追捕问题是一个多Agent系统,同时存在多Agent之间的协作与竞争,被广泛用来测试人工智能领域的学习算法。本文利用追捕问题对改进的多智能体协作学习方法进行实例分析与仿真验证。实验结果表明,该方法能够有效地提高多Agent系统中Agent的协作学习能力。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究的背景及意义1.2 强化学习概述1.2.1 强化学习的发展历史1.2.2 强化学习的研究现状1.3 追捕问题概述1.3.1 追捕问题的发展背景1.3.2 追捕问题的相关研究1.3.3 追捕问题存在的问题1.4 论文研究内容及结构安排1.4.1 研究内容1.4.2 论文安排第二章 多AGENT 系统2.1 AGENT 介绍2.1.1 Agent 的定义2.1.2 Agent 的基本特性2.2 多AGENT 系统概述2.2.1 多Agent 系统的定义及特性2.2.2 多Agent 学习的研究内容2.2.3 多Agent 协作机制2.3 本章小结第三章 多AGENT 强化学习理论3.1 强化学习3.1.1 强化学习的基本原理和定义3.1.2 马尔可夫决策过程3.1.3 强化学习的基本要素3.1.4 经典的强化学习算法3.1.5 有待进一步研究的问题3.2 多AGENT 强化学习3.2.1 MARL 方法及其发展3.2.2 合作MARL3.2.3 基于对策或平衡解的MARL3.2.4 最佳响应MARL3.2.5 MARL 有待进一步解决的问题3.3 本章小结第四章 改进的多AGENT 协作学习方法4.1 多AGENT 的信息共享机制4.1.1 信息共享机制4.1.2 实例分析4.2 黑板模型4.3 对手状态预测4.3.1 预测技术的提出4.3.2 对手状态预测函数4.4 改进的多AGENT 协作学习算法4.4.1 算法框架4.4.2 算法描述4.4.3 算法说明4.5 本章小结第五章 追捕问题研究5.1 任务描述5.2 追捕流程图5.3 算法设计5.3.1 分解目标及确定子目标5.3.2 状态聚类5.3.3 动作选择策略5.3.4 设定奖赏值5.3.5 更新Q 值5.4 实验结果及其分析5.5 本章小结第六章 结论与展望6.1 结论6.2 进一步的工作参考文献致谢附录(攻读硕士学位期间发表的论文及参与的科研项目)
相关论文文献
标签:智能体论文; 多智能体系统论文; 强化学习论文; 协作论文; 追捕问题论文;