基于增强学习的计算机博弈策略的研究与实现

基于增强学习的计算机博弈策略的研究与实现

论文摘要

计算机博弈作为人工智能领域的一个重要分支,得到了极其快速的发展。计算机博弈是一个有关对策和斗智问题的研究领域,属于人工智能中的问题求解与搜索技术。博弈的核心思想实际上就是对博弈树节点的估值过程和对博弈树搜索过程的结合。估值是各种博弈问题中最难以处理的一个问题,局面估值的准确性在很大程度上决定了博弈程序的棋力高低。本文基于增强学习,研究了计算机博弈中的一些关键技术。针对静态估值函数依赖人类棋类知识水平和评估不够准确的问题,将TD(λ)算法与BP神经元网络相结合,即BP-TD(λ)算法。该算法使用BP神经元网络作为局面的估值函数,利用TD(λ)算法直接从原始经验中学习,自动调整估值函数的参数,将BP神经元网络的有监督学习转换为无监督学习,避免了神经网络在有监督学习下调整参数值容易受人类经验影响的缺陷。为了更好地提高博弈训练的性能,针对开局和中局,提出分阶段设置参数值的策略。设置开局阶段的参数值时,着法选择使用的是随机的着法选择策略;设置中局阶段的参数值时,着法选择使用的是极大极小的选择策略。采用以上的方法和策略,以五子棋为模型,实现了基于增强学习的五子棋博弈系统TDRenju,通过对估值部分的改进和增强,提高了棋力。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 国内外研究现状及存在问题
  • 1.3.1 国内研究现状
  • 1.3.2 国外研究现状
  • 1.3.3 目前研究所存在的问题
  • 1.4 本文工作
  • 1.4.1 研究内容
  • 1.4.2 论文的组织结构
  • 第2章 计算机博弈中的关键技术
  • 2.1 棋盘的表示
  • 2.2 走法生成
  • 2.3 搜索算法
  • 2.3.1 博弈树
  • 2.3.2 极大极小值算法
  • 2.3.3 负极大值算法
  • 2.3.4 Alpha-Beta 搜索算法
  • 2.3.5 其他搜索算法
  • 2.4 估值
  • 2.4.1 静态估值函数
  • 2.4.2 静态估值函数存在的问题
  • 2.5 本章小结
  • 第3章 增强学习及神经网络理论
  • 3.1 增强学习
  • 3.1.1 增强学习算法原理
  • 3.1.2 评价函数P(s,a)
  • 3.1.3 TD(λ)算法
  • 3.2 神经网络
  • 3.2.1 神经元模型和网络结构
  • 3.2.2 反向传播算法
  • 3.3 本章小结
  • 第4章 估值算法与博弈训练的研究
  • 4.1 BP-TD(λ)学习算法
  • 4.2 BP 神经网络
  • 4.2.1 五子棋特征
  • 4.2.2 BP 神经元网络的设计
  • 4.3 BP-TD 强化学习过程
  • 4.4 博弈训练的研究及优化
  • 4.4.1 博弈训练的方式
  • 4.4.2 博弈训练的优化
  • 4.4.3 博弈训练中的探索和利用
  • 4.5 本章小结
  • 第5章 基于增强学习的五子棋博弈系统
  • 5.1 开发环境和工具
  • 5.2 系统实现
  • 5.2.1 系统总体功能的实现
  • 5.2.2 自学习功能的实现
  • 5.2.3 分阶段设置参数值的实现
  • 5.2.4 自学习训练
  • 5.3 试验结果分析
  • 5.3.1 神经元网络输入输出分析
  • 5.3.2 分阶段设置参数值的性能分析
  • 5.3.3 参数取值问题
  • 5.3.4 系统性能比较
  • 5.3.5 系统性能的提高
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].浅析神经元网络算法在中医药真实世界研究中应用可行性[J]. 天津中医药大学学报 2020(05)
    • [2].模糊神经元网络评价体系实证研究[J]. 建筑与文化 2018(10)
    • [3].模块神经元网络中耦合时滞诱导的簇同步转迁[J]. 动力学与控制学报 2016(06)
    • [4].肚子里的“第二大脑”[J]. 大自然探索 2017(05)
    • [5].混合突触作用下耦合时滞对模块神经元网络簇同步的影响[J]. 动力学与控制学报 2015(06)
    • [6].对传过程神经元网络及其应用研究[J]. 微型机与应用 2012(17)
    • [7].连续小波过程神经元网络在非线性函数逼近的应用[J]. 长春理工大学学报(自然科学版) 2010(03)
    • [8].两种特征扩展过程神经元网络应用比较研究[J]. 控制工程 2009(S3)
    • [9].一种过程神经元网络在管道土壤腐蚀速率预测中的应用[J]. 齐齐哈尔大学学报(自然科学版) 2008(04)
    • [10].一种模糊计算过程神经元网络及其应用[J]. 东北林业大学学报 2008(08)
    • [11].基于过程神经元网络的陶瓷窑炉智能控制机制[J]. 中国陶瓷 2008(10)
    • [12].前馈型神经元网络中的放电频率传递分析[J]. 动力学与控制学报 2020(01)
    • [13].神经元网络控制器在热网中的应用研究[J]. 自动化仪表 2014(12)
    • [14].一种概率过程神经元网络模型及分类算法[J]. 智能系统学报 2009(04)
    • [15].一种反馈过程神经元网络模型及在动态信号分类中的应用[J]. 计算机应用研究 2009(12)
    • [16].模式神经元网络的聚类方法研究[J]. 北京石油化工学院学报 2009(04)
    • [17].基于遗传算法和神经元网络的心电信号T波检测[J]. 中国生物医学工程学报 2008(04)
    • [18].基于自适应线性神经元网络的谐波检测算法[J]. 电子技术应用 2017(06)
    • [19].一种新型过程神经元网络安全模型[J]. 中国科技论文 2013(04)
    • [20].基于离散过程神经元网络旋转机械轴承故障诊断模型[J]. 化学工程与装备 2013(09)
    • [21].基于过程神经元网络的时间序列预测方法[J]. 计算机工程 2012(05)
    • [22].基于新型动态神经元网络的逆系统方法[J]. 控制工程 2012(03)
    • [23].灰色混沌神经元网络模型及其短期人口预测[J]. 系统工程 2012(10)
    • [24].神经元网络模型的弱信号随机共振检测研究[J]. 计算机工程与应用 2011(02)
    • [25].基于过程神经元网络与遗传算法的交通流预测[J]. 交通信息与安全 2010(05)
    • [26].一种基于数值积分的过程神经元网络训练算法[J]. 计算机科学 2010(11)
    • [27].基于自适应小波过程神经元网络的人口预测研究[J]. 长江大学学报(自然科学版)理工卷 2008(04)
    • [28].基于模糊神经元网络的信息融合模型[J]. 河北理工大学学报(自然科学版) 2008(03)
    • [29].基于概率神经元网络模型的高校政治教学系统构建[J]. 自动化技术与应用 2020(01)
    • [30].一种改进的过程神经元网络模型方式预测城市用水量[J]. 科技与企业 2013(02)

    标签:;  ;  ;  ;  ;  

    基于增强学习的计算机博弈策略的研究与实现
    下载Doc文档

    猜你喜欢