基于强化学习算法的最优潮流研究

论文摘要

最优潮流是电力系统最基本的优化问题,对整个电力系统的安全、经济、可靠运行都具有重要的现实意义,然而对于这种复杂非线性问题的优化计算,现存的诸多算法都易受到人为因素的限制或高维数的困扰,其优化效果和计算时间往往很难直接应用于电力系统的实际运行控制中。近年来随着人工智能中的强化学习（Reinforcement Learning）的研究和应用日益开展,已成为机器学习领域的研究热点。由于强化学习不要求对模型有精确的认知,通过不断的试错、反馈寻找最优动作,其本质不从目标函数着手,不再人为受到目标函数的限制,因而在一定程度上可以较为理想地解决最优潮流问题,特别是复杂多目标的优化问题。本文首先介绍了强化学习系统的结构和原理,并就其马尔科夫性做出了相应的理论化推导。接着在MATLAB软件中分别编写了强化学习中的Q学习算法和多步回溯Q（λ）学习算法在最优潮流中的应用程序,在较小规模节点系统中直接进行仿真计算,并就简单的单目标函数与其他经典算法进行了比较,验证了其计算结果的有效性,为后续实际应用奠定了基础。在此基础上,本文进而提出了一种更符合实际电网运行特点的多目标函数最优潮流模型,模拟一个负荷不断时变的小型实际电网,根据负荷变化特点,进行典型断面划分,为强化学习的应用提供了实用化的平台。由于强化学习中的多步回溯的Q（λ）学习算法具有良好的滚动优化和在线学习的能力,因而可以直接应用于这类较小规模的电网实时在线优化控制中,其仿真结果显示,计算结果可靠,而且具有明显的速度优势,为实际电网的在线优化决策提供了理论支持。然而随着电力系统规模的扩大,强化学习中的普通算法也面临着和其他人工智能相同的局限性—维数灾难。为了进一步克服“维灾难”问题,本文综合Multi-Agent控制系统和具有良好回溯特性的Q（λ）学习算法,提出了一种新颖的基于复杂电网分区的最优潮流分布式Q（λ）学习算法,该算法无需对最优潮流数学模型进行辅助处理,针对不同的电压等级进行各自分区,形成多个子系统,每个子系统所对应的Agent使用标准的多步Q（λ）算法独立承担各分区子系统的学习任务,通过反馈,统一协作从而形成整体意义上的最优。本论文的研究得到国家自然科学基金面上项目（50807016）、广东省自然科学基金项目（9151064101000049）的资助。

论文目录

摘要

Abstract

第一章绪论

1.1 选题背景

1.1.1 研究意义

1.1.2 最优潮流问题

1.2 强化学习及其在电力系统中应用

1.2.1 强化学习系统

1.2.2 强化学习在电力系统应用

1.3 最优潮流国内外研究现状

1.3.1 最优潮流优化算法发展

1.3.2 经典算法与人工智能比较

1.4 本文主要工作

第二章基于 Q 学习算法的最优潮流

2.1 马尔科夫决策过程

2.2 Q 学习算法

2.2.1 Q 学习算法简介

2.2.2 Q 学习算法在最优潮流应用流程

2.3 算例分析

2.3.1 基于MATPOWER 经典算法

2.3.2 IEEE9 节点

2.4 结论

第三章基于多步回溯Q（λ）算法的多目标最优潮流

3.1 多步回溯Q（λ）算法

3.1.1 TD（λ）算法

3.1.2 资格迹

3.1.3 Q（λ）算法

3.2 多步Q（λ）算法在多目标最优潮流中的应用

3.2.1 多目标函数

3.2.2 多步回溯Q（λ）算法的OPF 计算流程

3.2.3 多步Q（λ）学习算法参数设置

3.3 算例分析

3.3.1 单目标有功最优潮流

3.3.2 单目标无功最优潮流

3.3.3 多目标最优潮流

3.4 本章小结

第四章基于分布式强化学习算法的最优潮流

4.1 基于APP 的OPF 并行优化算法

4.2 并行算法与分布式强化学习

4.2.1 分布式强化学习

4.2.2 并行算法对分布式强化学习的启示

4.3 基于复杂电网分区的分布式Q（λ）学习

4.3.1 复杂电网分区及其学习方法选取

4.3.2 协作型RLI 中对边界节点的处理

4.3.3 应用流程

4.4 小结

第五章多目标复杂大电网最优潮流算例分析

5.1 简单算例验证

5.2 工程化目标函数及分区划分

5.2.1 工程化的目标函数

5.2.2 子区域划分

5.3 IEEE118 算例解析

5.4 小结

结论

参考文献

附录

攻读硕士学位期间取得的研究成果

致谢

附件

基于强化学习算法的最优潮流研究

论文摘要

论文目录

相关论文文献

猜你喜欢