多智能体的协作与规划研究及其在RoboCup中的应用

多智能体的协作与规划研究及其在RoboCup中的应用

论文摘要

近年来,有关Multi-agent系统(MAS)与分布式人工智能(DAI)的研究,已经成为人工智能领域的重要研究方向之一。而RoboCup则是以MAS和分布式人工智能为主要研究背景,其使命就是促进分布式人工智能与智能机器人技术的研究与教育。该研究方向要求在一个实时动态变化的和不可预测的环境中,拥有自主能力的Agent,作为团队的一部分,能自动地进行有效的动作,完成整个队伍的目标。本文以RoboCup仿真比赛为检验平台,以多智能体系统为研究对象,主要进行了以下工作:首先,选择智能体间协作作为目标任务,在对己有的协作策略进行研究的基础上,分别从静态和动态出发,研究了基于静态阵形和动态阵形的阵形变化策略,有效的增强了球队的整体实力;并且还采用了基于合作意愿矩阵的规划协作策略,很好的改善了球队整体协作进攻能力。其次,由于Q学习不能适用于连续状态空间和动作空间的学习,随着状态空间的增大,Q值在内存中的存储以及查询变得困难,会导致维数灾难,且传统的强化学习不具有泛化能力,这些缺点限制了它在复杂多变的环境中的应用。为了解决这些存在的问题,采用模糊Q学习算法以及基于信度分配模糊CMAC(CA-FCMAC)的Q学习算法,并将算法用于RoboCup仿真比赛中,通过实验证明改进后算法有效的优化了Agent个体技术。最后,在MAS中,由于外部环境提供信息较少,强化学习的学习效率通常较低。采用具有先验知识的算法来优化学习状态,提高学习效率。并结合心理学中的内在激励思想,提出基于先验知识的内在激励强化学习,并将此算法运用到MAS局部配合技术的训练中,实验表明,这种算法能够提高球队的局部协作能力。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 RoboCup 研究现状
  • 1.3 研究目的与意义
  • 1.4 MAS 主要研究内容
  • 1.5 本文结构组成
  • 第二章 RoboCup 仿真比赛系统
  • 2.1 RoboCup 仿真环境介绍
  • 2.2 SoccerServer 仿真环境模型
  • 2.2.1 比赛场地和球员
  • 2.2.2 球员的动作
  • 2.2.3 球员的感知
  • 2.3 RoboCup 仿真环境的特点
  • 2.4 小结
  • 第三章 MAS 协作与规划
  • 3.1 MAS 体系结构
  • 3.1.1 集中式结构
  • 3.1.2 分布式结构
  • 3.1.3 混合式结构
  • 3.2 分层结构模型
  • 3.2.1 通迅层
  • 3.2.2 基本动作层
  • 3.2.3 可选动作评价层
  • 3.2.4 决策层
  • 3.2.5 世界模型
  • 3.3 阵形规划研究
  • 3.3.1 角色的概念
  • 3.3.2 静态阵形
  • 3.3.3 动态阵形
  • 3.4 基于合作意愿矩阵的规划协作策略
  • 3.4.1 基于合作意愿矩阵的规划协作策略
  • 3.4.2 规划协作策略的应用
  • 3.5 小结
  • 第四章 强化学习理论及应用
  • 4.1 强化学习模型
  • 4.2 模糊Q 学习
  • 4.2.1 Q 学习算法
  • 4.2.2 模糊Q学习算法
  • 4.2.3 模糊Q学习在RoboCup中的应用
  • 4.3 基于CA-FCMAC 的Q 学习算法
  • 4.3.1 传统的CMAC
  • 4.3.2 CA-FCMAC
  • 4.3.3 CA-FCMAC Q 学习
  • 4.3.4 CA-FCMAC Q 学习的应用
  • 4.4 小结
  • 第五章 基于先验知识的内在激励强化学习
  • 5.1 基于先验知识的强化学习
  • 5.2 内在激励强化学习
  • 5.2.1 内在激励强化学习简述
  • 5.2.2 内在激励强化学习算法
  • 5.3 基于先验知识的内部激励强化学习算法
  • 5.4 算法在RoboCup 协作中的应用
  • 5.4.1 二对一问题
  • 5.4.2 三对二问题
  • 5.5 小结
  • 第六章 结论与展望
  • 6.1 本文总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    多智能体的协作与规划研究及其在RoboCup中的应用
    下载Doc文档

    猜你喜欢