基于增强学习的计算机博弈策略的研究与实现

论文摘要

计算机博弈作为人工智能领域的一个重要分支,得到了极其快速的发展。计算机博弈是一个有关对策和斗智问题的研究领域,属于人工智能中的问题求解与搜索技术。博弈的核心思想实际上就是对博弈树节点的估值过程和对博弈树搜索过程的结合。估值是各种博弈问题中最难以处理的一个问题,局面估值的准确性在很大程度上决定了博弈程序的棋力高低。本文基于增强学习,研究了计算机博弈中的一些关键技术。针对静态估值函数依赖人类棋类知识水平和评估不够准确的问题,将TD（λ）算法与BP神经元网络相结合,即BP-TD（λ）算法。该算法使用BP神经元网络作为局面的估值函数,利用TD（λ）算法直接从原始经验中学习,自动调整估值函数的参数,将BP神经元网络的有监督学习转换为无监督学习,避免了神经网络在有监督学习下调整参数值容易受人类经验影响的缺陷。为了更好地提高博弈训练的性能,针对开局和中局,提出分阶段设置参数值的策略。设置开局阶段的参数值时,着法选择使用的是随机的着法选择策略;设置中局阶段的参数值时,着法选择使用的是极大极小的选择策略。采用以上的方法和策略,以五子棋为模型,实现了基于增强学习的五子棋博弈系统TDRenju,通过对估值部分的改进和增强,提高了棋力。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景

1.2 研究意义

1.3 国内外研究现状及存在问题

1.3.1 国内研究现状

1.3.2 国外研究现状

1.3.3 目前研究所存在的问题

1.4 本文工作

1.4.1 研究内容

1.4.2 论文的组织结构

第2章计算机博弈中的关键技术

2.1 棋盘的表示

2.2 走法生成

2.3 搜索算法

2.3.1 博弈树

2.3.2 极大极小值算法

2.3.3 负极大值算法

2.3.4 Alpha-Beta 搜索算法

2.3.5 其他搜索算法

2.4 估值

2.4.1 静态估值函数

2.4.2 静态估值函数存在的问题

2.5 本章小结

第3章增强学习及神经网络理论

3.1 增强学习

3.1.1 增强学习算法原理

3.1.2 评价函数P（s,a）

3.1.3 TD（λ）算法

3.2 神经网络

3.2.1 神经元模型和网络结构

3.2.2 反向传播算法

3.3 本章小结

第4章估值算法与博弈训练的研究

4.1 BP-TD（λ）学习算法

4.2 BP 神经网络

4.2.1 五子棋特征

4.2.2 BP 神经元网络的设计

4.3 BP-TD 强化学习过程

4.4 博弈训练的研究及优化

4.4.1 博弈训练的方式

4.4.2 博弈训练的优化

4.4.3 博弈训练中的探索和利用

4.5 本章小结

第5章基于增强学习的五子棋博弈系统

5.1 开发环境和工具

5.2 系统实现

5.2.1 系统总体功能的实现

5.2.2 自学习功能的实现

5.2.3 分阶段设置参数值的实现

5.2.4 自学习训练

5.3 试验结果分析

5.3.1 神经元网络输入输出分析

5.3.2 分阶段设置参数值的性能分析

5.3.3 参数取值问题

5.3.4 系统性能比较

5.3.5 系统性能的提高

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

基于增强学习的计算机博弈策略的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢