论文摘要
强化学习并不需要环境模型,通过智能体和所在的环境的自主交互进行学习。现已成为多智能体系统与机器学习等领域的研究热点。多智能体系统常被应用于开放、复杂和动态变化的环境,单个的智能体的能力已经不能够胜任所面临的任务,不仅是具有相同目标的系统,而且还有相异目标的系统。同时,智能体还必须具备学习的能力以适应环境的动态变化。但是传统的单智能体学习原理并不适用于多智能体环境,多智能体强化学习的框架为马尔可夫对策,本文在研究对策论理论基础的同时围绕多智能体强化学习中出现的时间信度分配问题与结构信度分配问题,提出了新的学习方法。本文中采取的实验平台是VC#.NET,研究对象为追逐对策问题。将多个猎人智能体与一个猎物的追逐对策问题看成是具有两个局中人的离散动态对策问题,考虑了距离影响、走步影响和信度分配三个因素,构造了信度分配函数,并且通过计算各种可能的策略下猎人对逃跑者的距离来分配各种信度,包括时间信度和结构信度,并得到猎人的支付矩阵,求解该矩阵即可得到每次走步时双方的最优策略。以此作为双方策略的数学模型,并在此基础上提出了基于信度分配的多智能体强化学习算法本文的研究成果与创新见解是:●深入分析了多智能体强化学习算法及研究现状并作出了一定的比较;●结合在此方面同行所做的前沿工作,提出了新的基于信度分配的多智能体强化学习算法。●通过实例分析与仿真验证证明了其算法的收敛性和有效性。
论文目录
摘要ABSTRACT第一章 概述1.1 引言1.2 人工智能的发展历史1.3 多智能体强化学习的研究意义及其系统特点1.3.1 研究意义1.3.2 系统特点1.4 强化学习研究现状1.5 多智能体学习研究现状1.5.1 多智能体学习系统基本概念1.5.2 多智能体学习研究内容1.6 多智能体强化学习研究现状1.6.1 多智能体强化学习基础1.6.2 多智能体强化学习思想1.7 本文研究内容与结构安排1.7.1 研究内容1.7.2 结构安排第二章 多智能体强化学习方法2.1 引言2.2 强化学习方法研究2.2.1 TD 算法2.2.2 Dyna 算法2.2.3 Q 学习2.2.4 强化学习研究热点问题2.3 多智能体学习方法研究2.3.1 算法特点2.3.2 异质多智能体系统中结构角色的学习2.3.3 协调学习策略2.4 多智能体强化学习方法研究2.4.1 强化学习的原理2.4.2 对策论基础2.4.3 多智能体强化学习算法2.5 本章小结第三章 基于信度分配的多智能体强化学习3.1 引言3.2 协作型多智能体强化学习3.3 协作工作基本思想3.4 强化信号的信度分配3.5 基于信度分配的多智能体强化学习算法3.6 算法过程和算法流程图3.7 本章小结第四章 实例分析与仿真验证4.1 实例分析4.1.1 追逐对策问题描述4.1.2 算法流程4.2 仿真验证4.2.1 设计思想4.2.2 实验结果4.3 本章小结第五章 总结与展望5.1 对本文工作的总结5.2 对下一步工作的展望参考文献附录A(攻读学位期间发表论文目录)附录B(实例化编程源代码)
相关论文文献
标签:多智能体论文; 强化学习论文; 信度分配论文; 马尔可夫对策论文; 追逐对策论文;