论文摘要
本文针对RoboCup中型组环境下的单机器人行为控制问题,着重研究了增强学习在单任务环境与多任务环境中的应用,仿真验证并初步在实体机器人上实现了基于增强学习的行为控制,提高了机器人自主行为能力。论文首先在单任务环境下机器人行为控制方面开展了研究。针对机器人所处环境具有连续状态、实时性强的特点,论文在传统的基于均匀编码的CMAC神经网络基础上,提出了改进的基于三角剖分的CMAC模型,并结合Sarsa(λ)-学习算法对机器人足球中的截球问题进行了研究和实验。实验结果表明:该模型在对状态空间进行库恩三角化的同时,能够利用CMAC网络较好的泛化性能;相较于传统的基于均匀编码的CMAC模型,改进模型在解决大规模状态空间问题时获得了更好的状态估计性能。在此基础上,论文分析了增强学习在实体中应用时遇到的问题,并进行了相应的改进,成功的将本文所提出的增强学习算法应用到实际环境下的机器人行为控制,针对截球问题进行了研究。应用结果表明,足球机器人能够在大多数情况下成功的拦截住足球。论文同时讨论了启发式信息在增强学习中的应用,给出了ε? Heuristic行为选择策略,实验结果表明,启发式信息能够显著地提高学习效率,这对应用于复杂实际环境下的行为控制具有重要的意义。论文其次在多任务环境下机器人行为控制方面开展了研究。针对足球机器人比赛中经常遇到的在动作级层次上进行控制的问题,论文利用分层式增强学习已有的研究成果,提出了一种基于Sarsa(λ)-学习算法的分层式增强学习框架,在该框架中,任务被分解为高层子任务与低层子任务,其中高层Agent负责任务的上层规划,低层Agent根据高层Agent指定的目标并结合该目标下的策略选择相应的行为。该框架的优点在于能够将任务分解为不同层次上的子任务,这些子任务可以作为模块而被应用到新的任务环境下。论文进一步讨论了高层Agent与低层Agent之间的交互对整个任务学习的影响,通过结合仿真实验来检验这种交互给任务学习所带来的非Markov性,同时通过实验进一步分析了高层Agent与低层Agent各自的学习对整个任务学习的影响,结果表明,高层Agent能够在低层Agent获得近优策略之前对自身策略进行改进。本文针对单机器人行为控制问题开展了增强学习算法应用研究,并根据足球机器人比赛环境下的实际平台情况,较好的解决了理论及应用上相关的问题,促进了增强学习应用于机器人智能控制的相关工作。