Agent的强化学习与通信技术研究及应用

论文摘要

Agent和多Agent系统的理论和技术已成为分布式人工智能和计算机科学技术的核心研究内容之一，其中通信和学习是Agent应具备的两个重要技术。对于处于不断变化的、复杂的外部环境之中的Agent来说，必须具有学习能力，以适应自身所处的动态环境，需要有效的通信技术和方法，才能使Agent之间可以进行交互、协商与合作。在Agent的学习中，强化学习是其中主要的一类学习方法，被公认为是构成Agent的核心技术之一。通信协议是Agent通信中有效交换信息和知识的基础。本论文对强化学习和通信协议中的一些热点问题做了深入的研究，在前人研究成果的基础上做了一些有效的改进和有益的尝试。主要研究内容和研究结果如下：（1）在深入分析强化学习的基本原理和Q-学习算法的基础上，结合Agent的知识和逻辑推理机制，提出一种基于知识的Q-学习算法（KBQL）。利用Agent的领域知识来缩小要学习的状态空间，从而加速强化学习算法的收敛速度，并采用Agent内部的学习机制，不断修正Agent知识的不准确性，提高学习算法的适应性和鲁棒性。通过对Grid World例子进行的仿真试验，其结果表明：即使是不很精确的知识，KBQL算法与常规Q—学习算法相比，在收敛速度上具有明显的优势。（2）对标准Sarsa（λ）算法中的资格迹进行了深入分析，得到一个改善的Sarsa（λ）算法，它的计算时间复杂度为D（|A|），在此基础上设计了一个启发式回报函数，得到了一个带有启发式回报函数的Sarsa（λ）算法。启发式回报函数的引入，在理论上不会影响原有问题的最优策略，但可以利用Agent的知识，引导Agent在所期望的状态空间内进行搜索，从而改善学习算法的学习效率和收敛速度。（3）对一个分布式的RoboCup Soccer仿真环境中的Keepaway Soccer进行了研究，它是一个强化学习算法的测试平台。针对keeper的策略学习问题，根据足球常识设计了一个带有先验知识的强化学习模型，通过仿真试验，其结果表明具有先验知识的学习算法与无先验知识的学习算法相比，具有明显的优势。（4）通信语言和通信协议是Agent之间高效交换信息和知识的基础，本文在通信语言理论基础上，提出了一个可动态修改通信协议的Agent通信模型，使系统动态修改和添加通信协议，而不需要修改系统的源代码，从而大大减少系统的维护工作量，增加了系统的适应能力和稳定性。并结合电力系统的通信

论文目录

摘要

Abstract

第一章绪论

1.1 引言

1.2 Agent技术的发展

1.2.1 Agent的定义

1.2.2 Agent的智能特性

1.2.3 Agent技术的主要研究内容

1.2.4 Agent技术的应用

1.3 问题的提出

1.4 本文研究的出发点

1.5 本文主要研究内容及安排

第二章 Agent基本理论

2.1 前言

2.2 Agent的理论模型

2.2.1 BDI理论模型

2.2.2 BDI模型的逻辑描述

2.2.3 BDI理论模型的局限性

2.3 Agent的体系结构

2.3.1 体系结构

2.3.2 智能特性的实现机制

2.4 Agent的开发方法

2.4.1 面向Agent的软件开发方法

2.4.2 Agent开发工具的选择

2.5 本章小结

第三章基于知识的Agent强化学习

3.1 引言

3.2 强化学习

3.2.1 强化学习的基本原理

3.2.2 强化学习的基本算法

3.3 基于知识的Q-学习算法

3.3.1 Q-学习算法的收敛性分析

3.3.2 KBQL算法

3.3.3 KBQL的学习机制

3.3.4 仿真实例

3.4 带有启发式回报函数的Sarsa（λ）学习算法

3.4.1 基于值函数逼近的强化学习过程分析

3.4.2 改进的Sarsa（λ）算法

3.4.3 基于CMAC网络的快速Sarsa（λ）学习算法

3.4.4 带有启发式回报函数的Sarsa（λ）算法

3.4.5 试验仿真研究

3.5 本章结论与小结

第四章强化学习在Keepaway Soccer中的应用

4.1 引言

4.2 Keepaway Soccer

4.2.1 基本介绍

4.2.2 基于Keepaway soccer的强化学习模型

4.3 Keepaway Soccer的强化学习算法设计

4.4 仿真试验及结果分析

4.5 本章结论与小结

第五章 Agent通信技术及应用

5.1 引言

5.2 ACL基本理论

5.2.1 Speech-act理论

5.2.2 ACL的基本框架

5.3 KQML

5.3.1 KQML的语法与原语

5.3.2 KQML语言的语义

5.4 一种可动态改变通信协议的Agent通信模型

5.4.1 通信协议的形式化描述

5.4.2 一个可以动态修改通信协议的Agent通信模型

5.5 Agent通信技术在电力通信规约接口设计中的应用

5.5.1 电力系统通信规约的特点分析

5.5.2 通信规约接口框架设计

5.5.3 规约标准的规则知识库与规约Agent的设计

5.5.4 规约实现举例

5.6 本章结论与小结

第六章基于多Agent的电力负荷管理系统前置机软件开发与应用

6.1 引言

6.2 前置机的功能与特点

6.3 基于GPRS网络传输的应用层通信协议设计

6.3.1 GPRS网络的数据通信模型

6.3.2 滑动窗口协议

6.3.3 SWP的设计与实现

6.4 基于多Agent的前置机软件开发

6.4.1 前置机软件总体设计

6.4.2 基于多agent的前置机软件模型

6.4.3 Agent实现模型

6.4.4 通信规约接口及Agent之间的通信

6.4.5 负载均衡策略

6.5 实际工程应用

6.5.1 系统运行简介

6.5.2 前置机运行情况

6.6 本章结论与小结

结论

参考文献

攻读博士期间发表的论文

致谢

Agent的强化学习与通信技术研究及应用

论文摘要

论文目录

相关论文文献

猜你喜欢