论文摘要
支持向量机(SVM)是基于统计学习理论的一种机器学习方法,它具有全局最优解和良好的泛化性能等优点。强化学习是一种无监督的机器学习技术,能够利用不确定的环境下Agent所获得的奖赏来发现最优的行为序列,因此被广泛用于Agent的智能决策。但标准的强化学习算法不能适用于连续状态空间和动作空间的学习。本文针对RoboCup中的具体问题,一方面通过支持向量回归方法来解决RoboCup中球员截球问题,一方面在强化学习中引入支持向量分类技术来解决强化学习中连续状态表示问题,使其适用于RoboCup复杂环境下的Agent智能决策。本文的主要研究工作如下:(1)针对RoboCup中截球问题引入了支持向量回归方法,它通过采集样本训练预测模型来预测agent成功截到球时球运动过的距离。为了达到更好的预测效果,对此模型的参数选择问题进行了相应的研究。最后将此预测模型与广义回归神经网络等传统方法相比较,结果表明在截球距离的预测精度方面要优于传统的广义回归神经网络。(2)针对RoboCup中强化学习的连续状态表示问题,提出一种新的基于SVM分类的强化学习系统,其基本思想是通过SVM良好的泛化性能,先将整个状态空间划分为若干个区间以提供状态的可区分度,然后在此基础上建立状态到动作的映射关系。实验表明,该方法不但能学习到最优策略,并能通过SVM从有限小样本空间泛化到整个状态空间,从而有效解决连续状态空间的表示问题。
论文目录
摘要ABSTRACT第一章 绪论1.1 引言1.2 AGENT技术概述1.2.1 Agent概念1.2.2 Agent属性1.2.3 Agent结构1.2.4 多Agent系统1.3 ROBOCUP简介1.3.1 起源及意义1.3.2 RoboCup仿真组比赛1.3.3 当前研究状况1.4 本文结构第二章 基本理论2.1 统计学习与支持向量机2.1.1 统计学习理论2.1.2 支持向量机2.1.3 支持向量机回归2.2 强化学习2.2.1 强化学习原理2.2.2 强化学习中的几个关键问题2.2.3 经典的强化学习算法2.3 多AGENT强化学习2.3.1 合作型多Agent强化学习2.3.2 竞争型多Agent强化学习2.3.3 半竞争型多Agent强化学习2.4 支持向量和强化学习结合技术的研究2.5 本章小节第三章 支持向量回归在ROBOCUP截球技术中的应用3.1 截球问题背景介绍3.2 截球问题及其算法3.2.1 截球问题3.2.2 算法描述3.3 仿真实验3.3.1 评价标准3.3.2 样本采集3.3.3 学习参数的确定3.3.4 实验结果3.4 本章小结第四章 基于支持向量分类的强化学习模型4.1 引言4.2 基于SVM分类的强化学习系统4.2.1 输入模块4.2.2 状态划分模块4.2.3 状态泛化模块4.2.4 动作决策模块4.3 过人问题描述以及建模4.4 实验及其结果分析4.5 本章小结第五章 结束语5.1 本文工作总结5.2 下一步工作展望参考文献参与科研项目研究生期间发表论文情况
相关论文文献
标签:多系统论文; 支持向量论文; 强化学习论文;