论文摘要
长期以来,游戏问题都引起了人工智能研究者的极大兴趣和关注。很多人工智能技术在推理及策略游戏中的应用都取得了成功。这些成功有的助推了人工智能技术的发展,有的则驱动人工智能技术应用到大量的现实场景中去。在这其中,扑克游戏作为一种广受人们喜爱且需要一定智能和策略的游戏形式,在游戏人工智能领域占有一席之地。扑克游戏本质上属于不确定情况下的推理问题,其为人工智能新技术和新方法的研究和应用提供了一个很好的测试平台。目前,研究者已经将包括蒙特卡罗模拟、博弈树搜索、神经网络、进化方法以及贝叶斯网络等众多方法应用在扑克问题领域。而扑克问题中,最重要的一个环节就是如何能够针对对手的特点进行有效的对手建模。正因为扑克问题中包含了不可观测信息,才使得扑克问题成为了一个靠搜索技术很难解决的问题。因此,对手建模便成为了有效解决不可观测信息问题的重要手段。目前,研究者在扑克的对手建模领域虽进行了一些深入研究,但效果还不理想,突出的表现是不能有效地捕捉对手的模式和风格,从而影响扑克Agent的性能。本文基于德州扑克问题,根据现有研究不能有效地对对手风格和模式建模的不足,在对手建模问题方面进行了相应的研究。具体研究内容如下:(1)提出了一种基于贝叶斯网络推理的德州扑克对手风格建模方法。首先,精简了目前的贝叶斯扑克Agent的结构,并通过精简后的扑克贝叶斯网络推断出手牌输赢的概率分布;然后,我们设计了风格函数来学习对手基于当前牌局状态下的风格,并将其写入我们维护的风格表中;最后,通过设计相应的策略,我们利用学习得到的对手风格来辅助扑克Agent做出决策。实验表明我们提出的对手风格建模不仅是合理的,而且可以有效地帮助扑克Agent在固定的局数内赢得更多的钱。(2)提出了一种基于隐马尔可夫模型的德州扑克对手建模方法。首先,以每一手牌局的所有轮次作为时间周期对对手进行时序的行为建模;其次,我们对对手的手牌类型进行了预测;最后,通过设计相应的策略,我们利用对手手牌类型的预测结果辅助扑克Agent做出决策。实验表明,基于隐马尔可夫模型的对手建模方法能够很好地捕捉对手的时序行为习惯,此方法辅助下的扑克Agent在与水平较高的扑克Agent对局时通常能有稳定的收益。