论文摘要
近年来,有关Multi-agent系统(MAS)与分布式人工智能(DAI)的研究,已经成为人工智能领域的重要研究方向之一。而RoboCup则是以MAS和分布式人工智能为主要研究背景,其使命就是促进分布式人工智能与智能机器人技术的研究与教育。该研究方向要求在一个实时动态变化的和不可预测的环境中,拥有自主能力的Agent,作为团队的一部分,能自动地进行有效的动作,完成整个队伍的目标。本文以RoboCup仿真比赛为检验平台,以多智能体系统为研究对象,主要进行了以下工作:首先,选择智能体间协作作为目标任务,在对己有的协作策略进行研究的基础上,分别从静态和动态出发,研究了基于静态阵形和动态阵形的阵形变化策略,有效的增强了球队的整体实力;并且还采用了基于合作意愿矩阵的规划协作策略,很好的改善了球队整体协作进攻能力。其次,由于Q学习不能适用于连续状态空间和动作空间的学习,随着状态空间的增大,Q值在内存中的存储以及查询变得困难,会导致维数灾难,且传统的强化学习不具有泛化能力,这些缺点限制了它在复杂多变的环境中的应用。为了解决这些存在的问题,采用模糊Q学习算法以及基于信度分配模糊CMAC(CA-FCMAC)的Q学习算法,并将算法用于RoboCup仿真比赛中,通过实验证明改进后算法有效的优化了Agent个体技术。最后,在MAS中,由于外部环境提供信息较少,强化学习的学习效率通常较低。采用具有先验知识的算法来优化学习状态,提高学习效率。并结合心理学中的内在激励思想,提出基于先验知识的内在激励强化学习,并将此算法运用到MAS局部配合技术的训练中,实验表明,这种算法能够提高球队的局部协作能力。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.2 RoboCup 研究现状1.3 研究目的与意义1.4 MAS 主要研究内容1.5 本文结构组成第二章 RoboCup 仿真比赛系统2.1 RoboCup 仿真环境介绍2.2 SoccerServer 仿真环境模型2.2.1 比赛场地和球员2.2.2 球员的动作2.2.3 球员的感知2.3 RoboCup 仿真环境的特点2.4 小结第三章 MAS 协作与规划3.1 MAS 体系结构3.1.1 集中式结构3.1.2 分布式结构3.1.3 混合式结构3.2 分层结构模型3.2.1 通迅层3.2.2 基本动作层3.2.3 可选动作评价层3.2.4 决策层3.2.5 世界模型3.3 阵形规划研究3.3.1 角色的概念3.3.2 静态阵形3.3.3 动态阵形3.4 基于合作意愿矩阵的规划协作策略3.4.1 基于合作意愿矩阵的规划协作策略3.4.2 规划协作策略的应用3.5 小结第四章 强化学习理论及应用4.1 强化学习模型4.2 模糊Q 学习4.2.1 Q 学习算法4.2.2 模糊Q学习算法4.2.3 模糊Q学习在RoboCup中的应用4.3 基于CA-FCMAC 的Q 学习算法4.3.1 传统的CMAC4.3.2 CA-FCMAC4.3.3 CA-FCMAC Q 学习4.3.4 CA-FCMAC Q 学习的应用4.4 小结第五章 基于先验知识的内在激励强化学习5.1 基于先验知识的强化学习5.2 内在激励强化学习5.2.1 内在激励强化学习简述5.2.2 内在激励强化学习算法5.3 基于先验知识的内部激励强化学习算法5.4 算法在RoboCup 协作中的应用5.4.1 二对一问题5.4.2 三对二问题5.5 小结第六章 结论与展望6.1 本文总结6.2 展望致谢参考文献附录:作者在攻读硕士学位期间发表的论文
相关论文文献
标签:多智能体系统论文; 机器人足球世界杯论文; 协作与规划论文; 强化学习论文; 智能控制论文;
多智能体的协作与规划研究及其在RoboCup中的应用
下载Doc文档