基于强化学习算法的最优潮流研究

基于强化学习算法的最优潮流研究

论文摘要

最优潮流是电力系统最基本的优化问题,对整个电力系统的安全、经济、可靠运行都具有重要的现实意义,然而对于这种复杂非线性问题的优化计算,现存的诸多算法都易受到人为因素的限制或高维数的困扰,其优化效果和计算时间往往很难直接应用于电力系统的实际运行控制中。近年来随着人工智能中的强化学习(Reinforcement Learning)的研究和应用日益开展,已成为机器学习领域的研究热点。由于强化学习不要求对模型有精确的认知,通过不断的试错、反馈寻找最优动作,其本质不从目标函数着手,不再人为受到目标函数的限制,因而在一定程度上可以较为理想地解决最优潮流问题,特别是复杂多目标的优化问题。本文首先介绍了强化学习系统的结构和原理,并就其马尔科夫性做出了相应的理论化推导。接着在MATLAB软件中分别编写了强化学习中的Q学习算法和多步回溯Q(λ)学习算法在最优潮流中的应用程序,在较小规模节点系统中直接进行仿真计算,并就简单的单目标函数与其他经典算法进行了比较,验证了其计算结果的有效性,为后续实际应用奠定了基础。在此基础上,本文进而提出了一种更符合实际电网运行特点的多目标函数最优潮流模型,模拟一个负荷不断时变的小型实际电网,根据负荷变化特点,进行典型断面划分,为强化学习的应用提供了实用化的平台。由于强化学习中的多步回溯的Q(λ)学习算法具有良好的滚动优化和在线学习的能力,因而可以直接应用于这类较小规模的电网实时在线优化控制中,其仿真结果显示,计算结果可靠,而且具有明显的速度优势,为实际电网的在线优化决策提供了理论支持。然而随着电力系统规模的扩大,强化学习中的普通算法也面临着和其他人工智能相同的局限性—维数灾难。为了进一步克服“维灾难”问题,本文综合Multi-Agent控制系统和具有良好回溯特性的Q(λ)学习算法,提出了一种新颖的基于复杂电网分区的最优潮流分布式Q(λ)学习算法,该算法无需对最优潮流数学模型进行辅助处理,针对不同的电压等级进行各自分区,形成多个子系统,每个子系统所对应的Agent使用标准的多步Q(λ)算法独立承担各分区子系统的学习任务,通过反馈,统一协作从而形成整体意义上的最优。本论文的研究得到国家自然科学基金面上项目(50807016)、广东省自然科学基金项目(9151064101000049)的资助。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景
  • 1.1.1 研究意义
  • 1.1.2 最优潮流问题
  • 1.2 强化学习及其在电力系统中应用
  • 1.2.1 强化学习系统
  • 1.2.2 强化学习在电力系统应用
  • 1.3 最优潮流国内外研究现状
  • 1.3.1 最优潮流优化算法发展
  • 1.3.2 经典算法与人工智能比较
  • 1.4 本文主要工作
  • 第二章 基于 Q 学习算法的最优潮流
  • 2.1 马尔科夫决策过程
  • 2.2 Q 学习算法
  • 2.2.1 Q 学习算法简介
  • 2.2.2 Q 学习算法在最优潮流应用流程
  • 2.3 算例分析
  • 2.3.1 基于MATPOWER 经典算法
  • 2.3.2 IEEE9 节点
  • 2.4 结论
  • 第三章 基于多步回溯Q(λ)算法的多目标最优潮流
  • 3.1 多步回溯Q(λ)算法
  • 3.1.1 TD(λ)算法
  • 3.1.2 资格迹
  • 3.1.3 Q(λ)算法
  • 3.2 多步Q(λ)算法在多目标最优潮流中的应用
  • 3.2.1 多目标函数
  • 3.2.2 多步回溯Q(λ)算法的OPF 计算流程
  • 3.2.3 多步Q(λ)学习算法参数设置
  • 3.3 算例分析
  • 3.3.1 单目标有功最优潮流
  • 3.3.2 单目标无功最优潮流
  • 3.3.3 多目标最优潮流
  • 3.4 本章小结
  • 第四章 基于分布式强化学习算法的最优潮流
  • 4.1 基于APP 的OPF 并行优化算法
  • 4.2 并行算法与分布式强化学习
  • 4.2.1 分布式强化学习
  • 4.2.2 并行算法对分布式强化学习的启示
  • 4.3 基于复杂电网分区的分布式Q(λ)学习
  • 4.3.1 复杂电网分区及其学习方法选取
  • 4.3.2 协作型RLI 中对边界节点的处理
  • 4.3.3 应用流程
  • 4.4 小结
  • 第五章 多目标复杂大电网最优潮流算例分析
  • 5.1 简单算例验证
  • 5.2 工程化目标函数及分区划分
  • 5.2.1 工程化的目标函数
  • 5.2.2 子区域划分
  • 5.3 IEEE118 算例解析
  • 5.4 小结
  • 结论
  • 参考文献
  • 附录
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 附件
  • 相关论文文献

    • [1].考虑市场因素的电力系统供需互动混合博弈强化学习算法[J]. 控制理论与应用 2020(04)
    • [2].概率近似正确的强化学习算法解决连续状态空间控制问题[J]. 控制理论与应用 2016(12)
    • [3].基于粒子滤波的强化学习算法建模研究[J]. 无线互联科技 2017(01)
    • [4].基于粒子滤波的直接策略搜索强化学习算法研究[J]. 江苏科技信息 2017(07)
    • [5].强化学习算法与应用综述[J]. 计算机系统应用 2020(12)
    • [6].基于改进深度强化学习算法的电力市场监测模型研究[J]. 国外电子测量技术 2020(01)
    • [7].基于EnergyPlus-Python联合模拟和强化学习算法的室内环境控制优化[J]. 建设科技 2019(24)
    • [8].基于出租车司机经验的约束深度强化学习算法路径挖掘[J]. 计算机应用研究 2020(05)
    • [9].强化学习算法在空调系统运行优化中的应用研究[J]. 建筑节能 2020(07)
    • [10].面向交通信号控制的改进强化学习算法[J]. 电脑迷 2017(03)
    • [11].一种新的基于蚁群优化的模糊强化学习算法[J]. 计算机应用研究 2011(04)
    • [12].基于粒子滤波的强化学习算法研究[J]. 无线互联科技 2016(15)
    • [13].基于性能势的A*平均奖赏强化学习算法研究[J]. 计算机仿真 2014(07)
    • [14].一种基于资格迹的并行强化学习算法[J]. 苏州大学学报(自然科学版) 2012(01)
    • [15].基于强化学习算法的公交信号优先策略[J]. 东北大学学报(自然科学版) 2012(10)
    • [16].基于核方法的强化学习算法[J]. 微计算机信息 2008(04)
    • [17].基于个性的群体强化学习算法[J]. 微计算机信息 2008(36)
    • [18].集成规划的行动-自适应评价强化学习算法[J]. 内蒙古大学学报(自然科学版) 2008(03)
    • [19].多Agent系统的Q值强化学习算法[J]. 河南师范大学学报(自然科学版) 2013(02)
    • [20].一种基于生成对抗网络的强化学习算法[J]. 计算机科学 2019(10)
    • [21].面向高铁无线网络覆盖与容量优化的多agent模糊强化学习算法[J]. 通信技术 2015(11)
    • [22].强化学习算法的稳定状态空间控制[J]. 计算机应用 2008(05)
    • [23].基于强化学习算法的井下移动机器人路径规划[J]. 电气技术 2008(08)
    • [24].一种基于信息熵的强化学习算法[J]. 系统工程与电子技术 2010(05)
    • [25].并行强化学习算法及其应用研究[J]. 计算机工程与应用 2009(34)
    • [26].分阶Dyna强化学习算法[J]. 计算机仿真 2009(07)
    • [27].基于动态融合目标的深度强化学习算法研究[J]. 计算机工程与应用 2019(07)
    • [28].基于生成对抗网络的最大熵逆强化学习[J]. 计算机工程与应用 2019(22)
    • [29].基于知识的Agent强化学习算法分析与研究[J]. 电子设计工程 2011(11)
    • [30].基于实用推理的多智能体协作强化学习算法[J]. 华中科技大学学报(自然科学版) 2010(04)

    标签:;  ;  ;  ;  

    基于强化学习算法的最优潮流研究
    下载Doc文档

    猜你喜欢