基于强化学习算法的发酵过程多目标优化

基于强化学习算法的发酵过程多目标优化

论文摘要

分批补料发酵过程的反应特点包括强非线性、时间滞后、参数时变性以及生物状态量难以实时测量等,对产物、底物和时间消耗进行直接的在线控制非常困难。因此,离线优化成为了改善各个生产指标的主要手段。另外,这种复杂的优化包含有多个不可比较的甚至是互相矛盾的目标。这种优化问题需要得到Pareto最优解集,即进行基于Pareto的优化。另一方面,分批补料发酵过程中还有3-5个单独的控制回路用于控制pH值、温度和溶氧等状态量,同样要面对发酵反应的复杂性问题。这种情况下传统的控制算法也不能取得很好的效果。近年来,智能算法在复杂系统的控制与多目标优化发展迅速。作为应用最广泛的一种强化学习算法,Q-learning算法具有结构简单、无需先验知识、需整定参数少等优点,适合复杂系统优化和无模控制。本文提出了一种基于Pareto的离散化Q-learning多目标优化策略(PDQL),用于求解赖氨酸分批补料发酵过程的Pareto最优流加速率轨迹,以获得最优的生产指标。Q-learning算法与Pareto排序法相结合用于产生非支配解集,逐步逼近真实的Pareto前沿,并利用多组不同初始位置,同时共享搜索经验的agent共同搜索以增强并行搜索能力。优化结果与粒子群算法结合聚集函数法进行了对比,结果显示PDQL策略可以得到更多数量的解并具有更好的分布性。此外,针对发酵过程中的中和反应控制与温度控制设计了一种多步Q-learning控制器,利用Q-learning算法可进行无模控制的特点,重新设计误差的状态集,以克服发酵过程的反应复杂性。实验结果与PID控制进行了对比,证明了新控制器的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 强化学习的发展与现状
  • 1.3 Q-learning算法的基本知识
  • 1.3.1 Markov决策过程
  • 1.3.2 奖赏策略
  • 1.3.3 Q值函数
  • 1.3.4 动作选择机制
  • 1.3.5 Q-learning基本步骤
  • 1.3.6 Q-learning的优缺点
  • 1.4 补料分批发酵过程概述
  • 1.4.1 补料分批发酵过程
  • 1.4.2 发酵过程的一般特点
  • 1.4.3 分批补料发酵过程的多目标优化问题
  • 1.5 Q-learning算法在优化与控制中的应用
  • 1.6 本文的主要工作
  • 第二章 离散化Q-learning算法的Pareto优化策略
  • 2.1 引言
  • 2.2 PDQL优化策略
  • 2.2.1 基于Q-learning的优化策略
  • 2.2.2 非支配集的构建方法
  • 2.2.3 优化策略的步骤
  • 2.3 PDQL的函数优化测试
  • 2.3.1 单一目标函数测试结果
  • 2.3.2 Fonseca函数测试
  • 2.3.3 Viennet函数测试
  • 2.3.4 Viennet(3)函数测试
  • 2)函数测试'>2.3.5 Deb g(x2)函数测试
  • 2.4 本章小结
  • 第三章 赖氨酸补料分批发酵过程多目标优化
  • 3.1 引言
  • 3.2 赖氨酸补料分批发酵过程模型
  • 3.3 优化目标与优化解
  • 3.4 优化步骤与比较算法
  • 3.5 优化结果与分析
  • 3.6 本章小结
  • 第四章 多步Q-learning算法在发酵过程控制回路中的应用
  • 4.1 引言
  • 4.2 多步Q-learning控制器
  • 4.2.1 多步Q-learning算法
  • 4.2.2 多步Q-learning控制器设计
  • 4.3 多步Q-learning控制器在中和反应中的应用
  • 4.3.1 中和反应对象模型
  • 4.3.2 控制器设置
  • 4.3.3 控制结果与分析
  • 4.4 多步Q-learning控制器在温度控制中的应用
  • 4.4.1 酿酒酵母发酵过程温度控制模型
  • 4.4.2 温度控制器设置
  • 4.4.3 控制结果与分析
  • 4.5 本章小结
  • 第五章 结论与展望
  • 参考文献
  • 致谢
  • 研究成果及发表的学术论文
  • 作者简介
  • 硕士研究生学位论文答辩委员会决议书
  • 相关论文文献

    • [1].考虑市场因素的电力系统供需互动混合博弈强化学习算法[J]. 控制理论与应用 2020(04)
    • [2].概率近似正确的强化学习算法解决连续状态空间控制问题[J]. 控制理论与应用 2016(12)
    • [3].基于粒子滤波的强化学习算法建模研究[J]. 无线互联科技 2017(01)
    • [4].基于粒子滤波的直接策略搜索强化学习算法研究[J]. 江苏科技信息 2017(07)
    • [5].强化学习算法与应用综述[J]. 计算机系统应用 2020(12)
    • [6].基于改进深度强化学习算法的电力市场监测模型研究[J]. 国外电子测量技术 2020(01)
    • [7].基于EnergyPlus-Python联合模拟和强化学习算法的室内环境控制优化[J]. 建设科技 2019(24)
    • [8].基于出租车司机经验的约束深度强化学习算法路径挖掘[J]. 计算机应用研究 2020(05)
    • [9].强化学习算法在空调系统运行优化中的应用研究[J]. 建筑节能 2020(07)
    • [10].面向交通信号控制的改进强化学习算法[J]. 电脑迷 2017(03)
    • [11].一种新的基于蚁群优化的模糊强化学习算法[J]. 计算机应用研究 2011(04)
    • [12].基于粒子滤波的强化学习算法研究[J]. 无线互联科技 2016(15)
    • [13].基于性能势的A*平均奖赏强化学习算法研究[J]. 计算机仿真 2014(07)
    • [14].一种基于资格迹的并行强化学习算法[J]. 苏州大学学报(自然科学版) 2012(01)
    • [15].基于强化学习算法的公交信号优先策略[J]. 东北大学学报(自然科学版) 2012(10)
    • [16].基于核方法的强化学习算法[J]. 微计算机信息 2008(04)
    • [17].基于个性的群体强化学习算法[J]. 微计算机信息 2008(36)
    • [18].集成规划的行动-自适应评价强化学习算法[J]. 内蒙古大学学报(自然科学版) 2008(03)
    • [19].多Agent系统的Q值强化学习算法[J]. 河南师范大学学报(自然科学版) 2013(02)
    • [20].一种基于生成对抗网络的强化学习算法[J]. 计算机科学 2019(10)
    • [21].面向高铁无线网络覆盖与容量优化的多agent模糊强化学习算法[J]. 通信技术 2015(11)
    • [22].强化学习算法的稳定状态空间控制[J]. 计算机应用 2008(05)
    • [23].基于强化学习算法的井下移动机器人路径规划[J]. 电气技术 2008(08)
    • [24].一种基于信息熵的强化学习算法[J]. 系统工程与电子技术 2010(05)
    • [25].并行强化学习算法及其应用研究[J]. 计算机工程与应用 2009(34)
    • [26].分阶Dyna强化学习算法[J]. 计算机仿真 2009(07)
    • [27].基于动态融合目标的深度强化学习算法研究[J]. 计算机工程与应用 2019(07)
    • [28].基于生成对抗网络的最大熵逆强化学习[J]. 计算机工程与应用 2019(22)
    • [29].基于知识的Agent强化学习算法分析与研究[J]. 电子设计工程 2011(11)
    • [30].基于实用推理的多智能体协作强化学习算法[J]. 华中科技大学学报(自然科学版) 2010(04)

    标签:;  ;  ;  ;  

    基于强化学习算法的发酵过程多目标优化
    下载Doc文档

    猜你喜欢