论文摘要
强化学习是机器学习领域中主要的研究方向之一,研究的是如何使智能体通过和环境交互以改善自身的行为。随着监督学习和优化技术的发展,如何使用监督学习算法或优化方法在强化学习问题中直接搜索到一个最优策略,近年来得到了越来越多的研究者的关注。本文尝试对此类方法进行研究,主要取得了以下创新成果:第一,提出了基于弱策略自学习的强化学习方法LEWE,通过让智能体从自主探索获取的示范数据中学习以提高弱策略。实验结果表明LEWE显著提高了弱策略的性能。第二,提出了针对泛函策略方法的快速强化学习方法Napping,通过随机森林二次学习,在模型复杂度相当甚至更小的情况下,提升策略的性能。实验结果表明该方法不仅显著提升了泛函策略方法的性能,而且还降低了其训练和测试阶段的时间开销。第三,提出了元策略学习方法MAPLE,通过在策略建模时考虑环境参数对策略的影响以提升策略对不同环境的适应能力。实验结果表明该方法学习到的策略可以很好地适应同分布下的环境变化。第四,在浇花小车演示系统中,对上述方法进行了验证。