论文题目: 结合围捕问题的合作多智能体强化学习研究
论文类型: 博士论文
论文专业: 计算机应用技术
作者: 宋梅萍
导师: 顾国昌
关键词: 多强化学习,随机对策,多机器人,追捕逃跑任务
文献来源: 哈尔滨工程大学
发表年度: 2005
论文摘要: 机器学习一直是AI领域的研究热点。作为应用广泛的一种机器学习方法,强化学习在单agent情况下的研究已趋于成熟,而在多agent系统中的研究仍处于上升阶段,因为多agent系统本身的复杂性和动态不确定性增加了对学习算法研究的困难。应用数学领域中研究多人交互的对策论理论,为多agent系统中的学习算法的研究提供了一个很好的理论支撑。对策论与马尔可夫决策过程相结合便构建了一个用于研究交互式多agent学习的理论框架——随机对策。 在此框架下的学习研究已经取得了一些成果,如对抗、非合作和完全合作系统中的学习以及重复对策中的学习等。本文针对随机对策框架下完全合作和理性合作的多agent学习进行了研究。 完全合作的多agent系统中,在单agent学习算法的基础上研究偏差技术,并利用多agent系统的信息共享优势,提出了基于先验知识的共享策略学习算法。此外,用于实现学习的神经网络性能也会直接影响学习结果。针对反向传播神经网络收敛速度慢和易陷入局部最优等缺陷,提出利用合作粒子群优化方法对网络权值进行训练。它可以实现快速全局优化,改善网络学习性能从而有益于强化学习的效果。以上两方面都对加快学习速度发挥了很好的作用。 理性合作情况下的多agent学习研究较少,关键问题在于两方面。一方面是目标函数的选择和计算,另一方面是学习过程中的决策协调,二者都在很大程度上影响着学习的效果。在理性合作情况下,提出利用Pareto占优解作为目标函数进行学习,它可以在提高个体理性的同时增加整体理性。为了减小学习过程中用于协调的时间费用和通信费用,而且不影响学习的速度,提出利用社会规则的方法完成学习过程中的隐式协调。制定的一系列互利性社会规则实现了多agent系统决策的统一和较高的整体性能。 采用追捕-逃跑任务作为完全合作多agent学习的应用研究背景。构建一
论文目录:
第1章 绪论
1.1 引言
1.2 多agent学习
1.2.1 研究内容
1.2.2 研究现状
1.2.3 存在的问题及解决方案
1.3 追捕-逃跑问题
1.3.1 研究内容
1.3.2 研究现状
1.3.3 存在的问题
1.4 本文研究内容和研究方案
1.5 本文的组织结构
第2章 多agent学习的理论基础
2.1 Q学习
2.1.1 Q学习形式描述
2.1.2 Q学习收敛性证明
2.2 对策论
2.2.1 对策的形式定义
2.2.2 对策分类及相关解概念的定义
2.2.3 随机对策定义
2.3 Markov随机对策框架下的多agent学习算法介绍
2.3.1 Minimax-Q
2.3.2 Nash-Q
2.3.3 FFQ
2.3.4 CEQ
2.4 本章小结
第3章 多agent学习算法的研究
3.1 完全合作多agent学习
3.1.1 多agent的信息共享方式
3.1.2 基于先验知识的共享策略多agent学习
3.1.3 合作粒子群神经网络加快学习速度
3.2 理性合作多agent学习的研究
3.2.1 理性合作的Pareto-Q学习
3.2.2 多agent学习过程中的协调
3.2.3 实验及结果分析
3.2.4 结论
3.3 本章小结
第4章 追捕-逃跑任务及算法应用研究
4.1 追捕-逃跑任务的研究形式
4.1.1 有限图形式
4.1.2 栅格形式
4.2 构建追捕-逃跑系统
4.2.1 任务背景描述及角色定义
4.2.2 围捕机器人团队的系统框架及流程
4.2.3 协作机器人间的通信
4.3 实现围捕机器人的任务级协作和协调
4.3.1 围捕中的整体任务
4.3.2 “伸缩式”目标搜索算法
4.3.3 目标围捕中的任务分配方法
4.3.4 协作押送算法
4.4 实现基于合作学习的行为级规划
4.4.1 基于行为的定义
4.4.2 避碰和追踪行为控制产生方法
4.4.3 基于先验知识的合作强化学习调整重要性参数
4.5 本章小结
第5章 追捕-逃跑仿真演示系统及结果分析
5.1 仿真系统介绍
5.1.1 仿真系统结构介绍
5.1.2 系统流程介绍
5.2 任务仿真结果及分析
5.3 强化学习方法仿真结果及比较分析
5.4 本章小结
结论
参考文献
攻读博士学位期间发表的论文
致谢
发布时间: 2006-10-13
参考文献
- [1].基于迁移学习的脑机融合系统的研究[D]. 苏丽娟.浙江大学2017
相关论文
- [1].多智能体模型、学习和协作研究与应用[D]. 于江涛.浙江大学2003
- [2].多移动机器人运动控制策略的强化学习研究[D]. 庄晓东.中国海洋大学2005
- [3].机器学习及其在多Agent对策学习中的应用研究[D]. 王泉德.武汉大学2005
- [4].基于Agent的多机器人信息融合与协调研究[D]. 范波.西北工业大学2004
- [5].Agent的强化学习与通信技术研究及应用[D]. 伍少成.华南理工大学2006
- [6].基于强化学习的移动机器人自主学习及导航控制[D]. 陈春林.中国科学技术大学2006