论文摘要
强化学习是人工智能和机器学习的一个重要研究领域。强化学习采用试错的方式与环境进行交互,根据环境对动作的评价性反馈信号改进行动方案以适应环境。强化学习具有良好的在线自适应性和对非线性系统的学习能力,因此在人工智能、机器学习和自动控制等领域中得到广泛研究和应用。但是在具有大规模状态空间或连续状态空间的任务中,强化学习也存在着学习效率低,收敛速度慢的问题。二十世纪九十年代提出的分层强化学习是提高强化学习的收敛速度的一种有效方法。而且分层强化学习的子任务策略可以复用,这一特点使得知识传递成为强化学习的当前研究热点。本文主要研究分层强化学习以及分层强化学习的知识传递方法。研究内容包括两大部分:第一部分主要研究如何改进分层强化学习,加快算法在单个任务中的收敛速度。第二部分主要研究在状态转移概率与系统参数相关的任务中,分层强化学习如何有效获得与参数无关的知识,用知识传递加快算法在多个任务中的收敛速度。本文的主要研究工作和创新性体现在以下三个方面:第一,提出一种基于稳定状态空间的强化学习算法,通过减少所需探索和学习的状态空间来提高强化学习的收敛速度。为获得系统局部稳定状态空间的最优策略,提出一种状态预评估准则,并且修正算法的报酬信号,保证稳定状态空间的状态能独立收敛。为将探索过程集中于稳定状态空间中,提出基于状态预评估准则和动作连续性准则的探索策略。算法的学习时间仅随局部稳定状态空间的增加呈指数增长,因此有效地缓解了强化学习的维数灾难问题。将算法用于实际系统控制时,本文发现在倒立摆系统控制任务中,强化学习存在极限环问题,算法的控制策略不稳定。提出基于平衡状态的极限环检测方法,解决强化学习的极限环问题。本文算法能获得稳定的控制策略,为分层强化学习进一步获取知识提供了基础。第二,提出一种基于定性模型的分层Option算法和分步探索策略,解决强化学习探索策略的探索和利用问题。根据系统控制任务的特点,本文定义定性动作,并提出基于状态路径的次优定性动作判断准则。分步探索策略利用该准则首先选择次优定性动作,执行“利用”;然后从次优定性动作中选择元动作探索,在“利用”的基础上执行“探索”。这种分步探索策略不仅用层次化的方法有效地协调算法在全局和局部状态空间之间的探索和学习,而且解决了常用的分时探索策略所存在的问题。算法将知识传递和系统控制任务放在不同层次的子任务中完成,其层次化结构有利于算法抽取不同参数值的系统所具有的共同特征,为实现分层强化学习的知识传递提供了条件。第三,提出一种基于定性模糊网络的Option算法,解决常用知识传递方法难以用于状态转移概率随系统参数变化的任务中的问题。算法建立系统的定性模型,描述不同参数值的系统所具有的共同特征,将参数相关任务转变为参数无关任务。提出一种定性模糊网络学习基于定性模型的次优策略,抽取次优策略的特征获取与参数无关的知识。在系统参数变化较大的任务中,提出基于状态路径的报酬信号动态调整定性模糊网络,使定性模糊网络经过少量学习和修正后能适用于各种新参数值的同类任务。这种基于定性模型的知识传递方法能有效地描述参数值不同的系统所具有的共同控制规律,解决常用知识传递方法的参数敏感性问题,将常用知识传递方法从参数无关任务扩展到参数相关任务中。
论文目录
相关论文文献
- [1].考虑市场因素的电力系统供需互动混合博弈强化学习算法[J]. 控制理论与应用 2020(04)
- [2].概率近似正确的强化学习算法解决连续状态空间控制问题[J]. 控制理论与应用 2016(12)
- [3].基于粒子滤波的强化学习算法建模研究[J]. 无线互联科技 2017(01)
- [4].基于粒子滤波的直接策略搜索强化学习算法研究[J]. 江苏科技信息 2017(07)
- [5].基于改进深度强化学习算法的电力市场监测模型研究[J]. 国外电子测量技术 2020(01)
- [6].基于EnergyPlus-Python联合模拟和强化学习算法的室内环境控制优化[J]. 建设科技 2019(24)
- [7].基于出租车司机经验的约束深度强化学习算法路径挖掘[J]. 计算机应用研究 2020(05)
- [8].强化学习算法在空调系统运行优化中的应用研究[J]. 建筑节能 2020(07)
- [9].面向交通信号控制的改进强化学习算法[J]. 电脑迷 2017(03)
- [10].一种新的基于蚁群优化的模糊强化学习算法[J]. 计算机应用研究 2011(04)
- [11].基于粒子滤波的强化学习算法研究[J]. 无线互联科技 2016(15)
- [12].基于性能势的A*平均奖赏强化学习算法研究[J]. 计算机仿真 2014(07)
- [13].一种基于资格迹的并行强化学习算法[J]. 苏州大学学报(自然科学版) 2012(01)
- [14].基于强化学习算法的公交信号优先策略[J]. 东北大学学报(自然科学版) 2012(10)
- [15].基于核方法的强化学习算法[J]. 微计算机信息 2008(04)
- [16].基于个性的群体强化学习算法[J]. 微计算机信息 2008(36)
- [17].集成规划的行动-自适应评价强化学习算法[J]. 内蒙古大学学报(自然科学版) 2008(03)
- [18].多Agent系统的Q值强化学习算法[J]. 河南师范大学学报(自然科学版) 2013(02)
- [19].一种基于生成对抗网络的强化学习算法[J]. 计算机科学 2019(10)
- [20].面向高铁无线网络覆盖与容量优化的多agent模糊强化学习算法[J]. 通信技术 2015(11)
- [21].强化学习算法的稳定状态空间控制[J]. 计算机应用 2008(05)
- [22].基于强化学习算法的井下移动机器人路径规划[J]. 电气技术 2008(08)
- [23].一种基于信息熵的强化学习算法[J]. 系统工程与电子技术 2010(05)
- [24].并行强化学习算法及其应用研究[J]. 计算机工程与应用 2009(34)
- [25].分阶Dyna强化学习算法[J]. 计算机仿真 2009(07)
- [26].基于动态融合目标的深度强化学习算法研究[J]. 计算机工程与应用 2019(07)
- [27].基于生成对抗网络的最大熵逆强化学习[J]. 计算机工程与应用 2019(22)
- [28].基于知识的Agent强化学习算法分析与研究[J]. 电子设计工程 2011(11)
- [29].基于实用推理的多智能体协作强化学习算法[J]. 华中科技大学学报(自然科学版) 2010(04)
- [30].单跑道进离场航班强化学习排序模型研究[J]. 航空计算技术 2019(02)