基于马尔可夫决策过程理论的Agent决策问题研究

论文摘要

人工智能被认为其主要目标是构造可以决策出智能行为的Agents,即这些Agents能够在多方面再现人类可以做出的智能行为。马尔可夫决策过程（MDP）可以用来描述和处理大规模不确定性环境下的Agent决策问题。RoboCup机器人世界杯是国际上一项为促进分布式人工智能、智能机器人技术及其相关领域的研究与发展而举行的大型比赛和学术活动,RoboCup仿真2D比赛是RoboCup所有项目中以Agent决策为重点的一个分支。本文以马尔可夫决策过程的相关理论为基础,以RoboCup仿真2D比赛为实验平台,对Agent决策相关问题进行了研究。本文的主要工作可以概括为以下三个方面:本文重构并实现了一个完整的RoboCup仿真2D球队决策系统WE2009。该系统以部分可观察随机博弈（POSG）的模型为理论基础,包括信息处理、高层决策和行为执行三个模块。特别是高层决策模块,采用基于独立行为生成器的结构设计,不仅可以充分利用Agent的决策时间,而且可以提高团队合作的效率。本文提出了一类特殊的马尔可夫决策过程,即行动驱动的马尔可夫决策过程（ADMDP）。本文分析了ADMDP的理论模型,提出了ADMDP的相关求解方法。该方法采取离线值迭代与在线搜索相结合,在本文中用来求解RoboCup仿真2D比赛中的不离身带球问题,使Agent的带球性能有了较大的提高。本文提出了一类特殊的马尔可夫博弈,即基于阵型的零和马尔可夫博弈（FZSMG）。本文分析了FZSMG的理论模型,并以此为基础来描述RoboCup仿真2D比赛中的Anti-Mark问题。针对Anti-Mark问题,本文提出了一个基于阵型变换的启发式求解方法,使球队在与盯人防守的对手比赛时取得了较好的效果。本文的所有工作都是基于WE2009实现的,WE2009在完成后参加了2009RoboCup机器人世界杯和2009中国机器人大赛两次重要比赛,并且全部获得冠军。

论文目录

摘要

ABSTRACT

图表目录

第1章绪论

1.1 人工智能与Agent 决策

1.2 马尔可夫决策过程

1.2.1 基本模型

1.2.2 世界状态

1.2.3 行动

1.2.4 状态转移函数

1.2.5 收益函数

1.2.6 值函数与策略求解

1.3 其他决策模型介绍

1.4 实验平台

1.4.1 RoboCup 机器人世界杯

1.4.2 RoboCup 仿真2D 机器人足球比赛

1.4.3 WrightEagle 仿真2D 机器人足球队

1.5 本文的主要工作及章节安排

第2章 WE2009 仿真2D 球队决策系统

2.1 RoboCup 仿真2D 平台

2.1.1 Server 端

2.1.2 Client 端

2.2 理论模型

2.2.1 POSG 的基本模型

2.2.2 WE2009 的POSG 建模

2.3 系统结构分析

2.3.1 系统决策流程

2.3.2 信息处理模块

2.3.3 高层决策模块

2.3.4 行为执行模块

2.4 小结

第3章行动驱动的马尔可夫决策过程

3.1 问题的提出

3.2 理论模型

3.3 求解算法

3.3.1 MDP 的经典求解算法

3.3.2 ADMDP 的精确求解算法

3.3.3 ADMDP 的启发式求解算法

3.4 不离身带球问题的求解

3.4.1 问题分析

3.4.2 模型建立

3.5 实验结果及分析

3.6 小结

第4章基于阵型的零和马尔可夫博弈

4.1 博弈论相关背景

4.1.1 博弈与零和博弈

4.1.2 零和马尔可夫博弈

4.2 理论模型及应用实例

4.2.1 角色与阵型

4.2.2 理论模型

4.2.3 Anti-Mark 问题中的应用

4.3 Anti-Mark 问题的求解

4.3.1 多角色异构分配策略

4.3.2 阵型变换策略

4.4 实验结果及分析

4.5 小结

第5章总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读学位期间发表的学术论文与取得的其他研究成果

基于马尔可夫决策过程理论的Agent决策问题研究

论文摘要

论文目录

相关论文文献

猜你喜欢