论文摘要
人工智能被认为其主要目标是构造可以决策出智能行为的Agents,即这些Agents能够在多方面再现人类可以做出的智能行为。马尔可夫决策过程(MDP)可以用来描述和处理大规模不确定性环境下的Agent决策问题。RoboCup机器人世界杯是国际上一项为促进分布式人工智能、智能机器人技术及其相关领域的研究与发展而举行的大型比赛和学术活动,RoboCup仿真2D比赛是RoboCup所有项目中以Agent决策为重点的一个分支。本文以马尔可夫决策过程的相关理论为基础,以RoboCup仿真2D比赛为实验平台,对Agent决策相关问题进行了研究。本文的主要工作可以概括为以下三个方面:本文重构并实现了一个完整的RoboCup仿真2D球队决策系统WE2009。该系统以部分可观察随机博弈(POSG)的模型为理论基础,包括信息处理、高层决策和行为执行三个模块。特别是高层决策模块,采用基于独立行为生成器的结构设计,不仅可以充分利用Agent的决策时间,而且可以提高团队合作的效率。本文提出了一类特殊的马尔可夫决策过程,即行动驱动的马尔可夫决策过程(ADMDP)。本文分析了ADMDP的理论模型,提出了ADMDP的相关求解方法。该方法采取离线值迭代与在线搜索相结合,在本文中用来求解RoboCup仿真2D比赛中的不离身带球问题,使Agent的带球性能有了较大的提高。本文提出了一类特殊的马尔可夫博弈,即基于阵型的零和马尔可夫博弈(FZSMG)。本文分析了FZSMG的理论模型,并以此为基础来描述RoboCup仿真2D比赛中的Anti-Mark问题。针对Anti-Mark问题,本文提出了一个基于阵型变换的启发式求解方法,使球队在与盯人防守的对手比赛时取得了较好的效果。本文的所有工作都是基于WE2009实现的,WE2009在完成后参加了2009RoboCup机器人世界杯和2009中国机器人大赛两次重要比赛,并且全部获得冠军。
论文目录
摘要ABSTRACT目录图表目录第1章 绪论1.1 人工智能与Agent 决策1.2 马尔可夫决策过程1.2.1 基本模型1.2.2 世界状态1.2.3 行动1.2.4 状态转移函数1.2.5 收益函数1.2.6 值函数与策略求解1.3 其他决策模型介绍1.4 实验平台1.4.1 RoboCup 机器人世界杯1.4.2 RoboCup 仿真2D 机器人足球比赛1.4.3 WrightEagle 仿真2D 机器人足球队1.5 本文的主要工作及章节安排第2章 WE2009 仿真2D 球队决策系统2.1 RoboCup 仿真2D 平台2.1.1 Server 端2.1.2 Client 端2.2 理论模型2.2.1 POSG 的基本模型2.2.2 WE2009 的POSG 建模2.3 系统结构分析2.3.1 系统决策流程2.3.2 信息处理模块2.3.3 高层决策模块2.3.4 行为执行模块2.4 小结第3章 行动驱动的马尔可夫决策过程3.1 问题的提出3.2 理论模型3.3 求解算法3.3.1 MDP 的经典求解算法3.3.2 ADMDP 的精确求解算法3.3.3 ADMDP 的启发式求解算法3.4 不离身带球问题的求解3.4.1 问题分析3.4.2 模型建立3.5 实验结果及分析3.6 小结第4章 基于阵型的零和马尔可夫博弈4.1 博弈论相关背景4.1.1 博弈与零和博弈4.1.2 零和马尔可夫博弈4.2 理论模型及应用实例4.2.1 角色与阵型4.2.2 理论模型4.2.3 Anti-Mark 问题中的应用4.3 Anti-Mark 问题的求解4.3.1 多角色异构分配策略4.3.2 阵型变换策略4.4 实验结果及分析4.5 小结第5章 总结与展望5.1 总结5.2 展望参考文献致谢攻读学位期间发表的学术论文与取得的其他研究成果
相关论文文献
标签:人工智能论文; 决策论文; 多系统论文; 马尔可夫决策过程论文; 马尔可夫博弈论文; 仿真论文;