基于信度分配的多智能体强化学习研究

论文摘要

强化学习并不需要环境模型,通过智能体和所在的环境的自主交互进行学习。现已成为多智能体系统与机器学习等领域的研究热点。多智能体系统常被应用于开放、复杂和动态变化的环境,单个的智能体的能力已经不能够胜任所面临的任务,不仅是具有相同目标的系统,而且还有相异目标的系统。同时,智能体还必须具备学习的能力以适应环境的动态变化。但是传统的单智能体学习原理并不适用于多智能体环境,多智能体强化学习的框架为马尔可夫对策,本文在研究对策论理论基础的同时围绕多智能体强化学习中出现的时间信度分配问题与结构信度分配问题,提出了新的学习方法。本文中采取的实验平台是VC#.NET,研究对象为追逐对策问题。将多个猎人智能体与一个猎物的追逐对策问题看成是具有两个局中人的离散动态对策问题,考虑了距离影响、走步影响和信度分配三个因素,构造了信度分配函数,并且通过计算各种可能的策略下猎人对逃跑者的距离来分配各种信度,包括时间信度和结构信度,并得到猎人的支付矩阵,求解该矩阵即可得到每次走步时双方的最优策略。以此作为双方策略的数学模型,并在此基础上提出了基于信度分配的多智能体强化学习算法本文的研究成果与创新见解是:●深入分析了多智能体强化学习算法及研究现状并作出了一定的比较;●结合在此方面同行所做的前沿工作,提出了新的基于信度分配的多智能体强化学习算法。●通过实例分析与仿真验证证明了其算法的收敛性和有效性。

论文目录

摘要

ABSTRACT

第一章概述

1.1 引言

1.2 人工智能的发展历史

1.3 多智能体强化学习的研究意义及其系统特点

1.3.1 研究意义

1.3.2 系统特点

1.4 强化学习研究现状

1.5 多智能体学习研究现状

1.5.1 多智能体学习系统基本概念

1.5.2 多智能体学习研究内容

1.6 多智能体强化学习研究现状

1.6.1 多智能体强化学习基础

1.6.2 多智能体强化学习思想

1.7 本文研究内容与结构安排

1.7.1 研究内容

1.7.2 结构安排

第二章多智能体强化学习方法

2.1 引言

2.2 强化学习方法研究

2.2.1 TD 算法

2.2.2 Dyna 算法

2.2.3 Q 学习

2.2.4 强化学习研究热点问题

2.3 多智能体学习方法研究

2.3.1 算法特点

2.3.2 异质多智能体系统中结构角色的学习

2.3.3 协调学习策略

2.4 多智能体强化学习方法研究

2.4.1 强化学习的原理

2.4.2 对策论基础

2.4.3 多智能体强化学习算法

2.5 本章小结

第三章基于信度分配的多智能体强化学习

3.1 引言

3.2 协作型多智能体强化学习

3.3 协作工作基本思想

3.4 强化信号的信度分配

3.5 基于信度分配的多智能体强化学习算法

3.6 算法过程和算法流程图

3.7 本章小结

第四章实例分析与仿真验证

4.1 实例分析

4.1.1 追逐对策问题描述

4.1.2 算法流程

4.2 仿真验证

4.2.1 设计思想

4.2.2 实验结果

4.3 本章小结

第五章总结与展望

5.1 对本文工作的总结

5.2 对下一步工作的展望

参考文献

附录A（攻读学位期间发表论文目录）

附录B（实例化编程源代码）

基于信度分配的多智能体强化学习研究

论文摘要

论文目录

相关论文文献

猜你喜欢