基于RoboCup多智能体系统学习与协作问题的研究

基于RoboCup多智能体系统学习与协作问题的研究

论文摘要

随着计算机技术的发展,分布式人工智能中多智能体系统(MAS:Multi-agent System)的理论及应用研究已经成为人工智能研究的热点。RoboCup(Robot World Cup)即机器人世界杯足球锦标赛,是一种典型的多智能体系统。该系统具有动态环境、多个智能体之间合作与竞争并存、受限的通讯带宽以及系统设置的随机噪声等特点。通过该系统这个具有普遍意义的试验平台,可以深入研究和评价多智能体系统中的各种理论和算法,并将结果推广到众多领域。本文的主要研究工作如下:1)针对RoboCup中Agent决策任务的复杂性特点,设计了基于分层学习的决策框架。该决策框架将Agent的决策任务按高级到低级分为多个层次,每层的决策通过相应机器学习方法实现,并以下一层的学习结果为基础。而针对层结构的误差积累问题,采取了一种改进的层结构,加入了一个协调层,用于对决策信息进行评价,并对明显错误的信息进行更正。2)为了提高Agent个体技术的智能性,采用遗传神经网络技术进行离线训练,实现了Agent的截球技术。实验表明,该技术较好地解决了噪声所造成的干挠影响。而对于智能体的踢球技术,则采用Q学习进行离线训练。3)针对Agent团队协作的进攻决策学习问题,对单Agent的Q学习算法进行了扩展。主要思想是引入学习智能体,同时,将统计学习与增强学习相结合,通过对智能体间联合动作的统计来学习其它智能体的行为决策。本文的相关实验在Robocup仿真比赛环境下进行,实验结果证明采用本文的学习算法有效地实现了Agent在复杂环境下的智能决策。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.2 智能Agent
  • 1.2.1 Agent与环境
  • 1.2.2 Agent属性
  • 1.2.3 Agent结构分类
  • 1.3 多Agent系统及其研究内容
  • 1.4 RoboCup的研究概况
  • 1.4.1 RoboCup背景及意义
  • 1.4.2 RoboCup比赛及仿真环境
  • 1.4.3 国内外的研究概况
  • 1.5 论文的主要工作
  • 第二章 RoboCup中的学习技术
  • 2.1 BP神经网络理论
  • 2.1.1 BP神经网络结构
  • 2.1.2 BP算法基本原理
  • 2.1.3 BP算法的工作原理
  • 2.2 遗传算法
  • 2.2.1 遗传算法的基本要素
  • 2.2.2 遗传算法的工作原理
  • 2.3 强化学习
  • 2.3.1 强化学习原理
  • 2.3.2 马尔可夫决策过程(Markov Decision Process)模型
  • 2.3.3 强化学习中的几个关键概念
  • 2.4 Q学习
  • 2.4.1 Q学习原理
  • 2.4.2 Q学习的基本算法
  • 2.5 本章小结
  • 第三章 基于层结构的Agent框架研究
  • 3.1 AFU2007的结构设计
  • 3.1.1 Agent的结构设计需求
  • 3.1.2 Agent层结构设计框架
  • 3.1.3 AFU2007层结构的模块化实现
  • 3.1.4 协调和紧急处理模块的实现
  • 3.2 基于分层学习的Agent决策框架
  • 3.2.1 决策框架的提出
  • 3.2.2 决策框架的结构
  • 3.3 自底向上的学习过程
  • 3.3.1 基本技术的学习
  • 3.3.2 个体策略的学习
  • 3.3.3 球队策略的学习
  • 3.4 自顶向下的决策过程
  • 3.5 学习决策框架中存在的问题
  • 3.6 本章小结
  • 第四章 Agent个体技术的实现研究
  • GA算法'>4.1 截球(interceptive)技术的BPGA算法
  • 4.1.1 问题描述
  • 4.1.2 二分法求解
  • GA算法求解'>4.1.3 截球(interceptive)的BPGA算法求解
  • GA算法与纯BP算法的对比实验'>4.1.4 BPGA算法与纯BP算法的对比实验
  • GA算法与二分法求解的对比'>4.1.5 DPGA算法与二分法求解的对比
  • 4.2 踢球(Kick)的Q学习
  • 4.2.1 问题描述
  • 4.2.2 踢球(kick)技术的Q学习实现
  • 4.2.3 实验与评价
  • 4.3 本章小结
  • 第五章 Agent群体协作的Q学习研究
  • 5.1 多AgentQ学习
  • 5.1.1 基于Markov对策框架的多Agent强化学习框架
  • 5.1.2 基于统计的多Agent Q学习思想
  • 5.1.3 多Agent Q学习算法
  • 5.1.4 算法收敛性证明
  • 5.2 学习算法在RoboCup进攻决策中的应用
  • 5.2.1 问题引入
  • 5.2.2 Agnet团队进攻策略的强化学习
  • 5.2.3 进攻决策的Q学习模型
  • 5.2.4 实验与讨论
  • 5.3 本章小结
  • 第六章 结束语
  • 6.1 本文工作总结
  • 6.2 下一步的工作
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].一场机器人的新科技盛宴——记2018国家机器人发展论坛暨RoboCup机器人世界杯中国赛[J]. 科技创新与品牌 2018(05)
    • [2].机器人大揭秘[J]. 少年月刊 2016(24)
    • [3].中国RoboCup中型组近五年发展回顾与展望[J]. 机器人技术与应用 2013(06)
    • [4].RoboCup中型组守门员防守策略的研究[J]. 机电一体化 2017(03)
    • [5].一种新的RoboCup阵型分析方法[J]. 苏州科技学院学报(自然科学版) 2016(02)
    • [6].回答集编程在RoboCup中型组的应用[J]. 信息通信 2014(10)
    • [7].基于速度选择的RoboCup传球策略[J]. 计算机光盘软件与应用 2013(16)
    • [8].Robocup类人仿真平台分析与球员设计[J]. 大众科技 2009(04)
    • [9].RoboCup比赛机器人集成化技术初探[J]. 微型电脑应用 2008(01)
    • [10].Q学习在RoboCup前场进攻动作决策中的应用[J]. 计算机工程与应用 2013(07)
    • [11].行动驱动的马尔可夫决策过程及在RoboCup中的应用[J]. 小型微型计算机系统 2011(03)
    • [12].基于最优化模糊逻辑的Robocup中型组动态角色分配[J]. 计算技术与自动化 2011(01)
    • [13].基于改进的Q学习的RoboCup传球策略研究[J]. 计算机技术与发展 2008(04)
    • [14].浙江大学卫冕机器人世界杯RoboCup小型组冠军[J]. 中国教育网络 2014(08)
    • [15].改进的Q学习算法及在其RoboCup中的应用[J]. 四川理工学院学报(自然科学版) 2011(04)
    • [16].RoboCup守门员动作与策略的研究和实现[J]. 中国科技信息 2008(21)
    • [17].RoboCup标准组机器人队员识别仿真[J]. 计算机仿真 2015(04)
    • [18].RoboCup仿真2D实验平台[J]. 实验室研究与探索 2014(04)
    • [19].RoboCup擂台赛机器人控制系统设计[J]. 山东理工大学学报(自然科学版) 2011(05)
    • [20].共享经验分布式Q-学习模型在RoboCup中的应用[J]. 微计算机信息 2010(08)
    • [21].RoboCup中型组比赛中动态阵型选择[J]. 长沙理工大学学报(自然科学版) 2009(04)
    • [22].RoboCup中型组足球机器人运动控制系统的设计[J]. 机床与液压 2014(03)
    • [23].强化学习在RoboCup带球任务中的应用[J]. 微计算机信息 2012(09)
    • [24].RoboCup小型足球机器人测速系统研究[J]. 机电工程 2011(02)
    • [25].Robocup中模糊阵型策略的实现[J]. 工业控制计算机 2008(12)
    • [26].2014中国机器人大赛暨RoboCup中国公开赛落幕[J]. 机器人技术与应用 2014(06)
    • [27].激励学习在RoboCup截球技术中的研究[J]. 微计算机信息 2012(09)
    • [28].2013年中国机器人大赛暨RoboCup公开赛获奖名单[J]. 机器人技术与应用 2013(06)
    • [29].基于场地划分的RoboCup中型组守门员动态策略防守[J]. 科学技术与工程 2010(16)
    • [30].“大个子”机器人与RoboCup中型组比赛[J]. 机器人技术与应用 2008(05)

    标签:;  ;  ;  ;  ;  

    基于RoboCup多智能体系统学习与协作问题的研究
    下载Doc文档

    猜你喜欢