基于数据挖掘的若干化工过程优化和化合物构效关系研究

基于数据挖掘的若干化工过程优化和化合物构效关系研究

论文摘要

数据挖掘是指综合运用多种算法,从大量数据中发现事先未知的信息和知识的计算机数据处理过程。作为一门多学科的交叉技术,数据挖掘已成为数据库系统和机器学习领域的重点研究课题,因其应用前景广阔而受到学术界和工业界的广泛关注。本文将数据挖掘技术应用于若干化工过程优化和化合物构效关系研究,主要的研究内容和研究成果如下:1.在系统研究了基于数据挖掘技术的氨合成装置生产优化方法的基础上,开发了具有自主知识产权的、用于解决合成氨工业生产操作参数优化的数据挖掘优化系统—DMOS合成氨优化系统,该系统由离线版和在线版优化软件组成。该优化系统具有一些显著特点,如融合了不同的数据挖掘方法、自动建模、模型更新、多模型优化策略、在线监测优化及友好的操作界面等,因而具有功能强大、操作便利和适应性强等明显优势。本工作还利用开发的DMOS合成氨优化系统,通过对云维集团有限公司沾化分公司氨合成装置1#、2#、3#合成塔生产数据的数据挖掘,分别找出了影响装置入塔新鲜气量的主要工艺参数,建立了入塔新鲜气量与有关工艺参数间的数学模型,结果表明所建模型可靠性强,可为优化生产提供指导。2.从技术或经济角度看,化工过程优化是提高企业竞争力和经济效益的必要手段。本文将数据挖掘技术分别应用到某炼油厂偏三甲苯装置和某石油化工股份有限公司芳烃抽提装置生产优化,特别是首次将适合小样本数据建模的支持向量机(SVM)方法用于上述两个化工过程生产优化中,分别找到了影响装置优化目标的主要生产工艺参数,建立了装置优化目标与有关工艺参数间的定性、定量模型。结果表明:(a)较高的C01塔底温度(T01-01)、C02塔底温度(T02-01)(均控制在211±0.5℃)和较高的C01塔板温差(dT01)(30.5±0.5℃)有利于提高生产装置的偏三甲苯收率;偏三甲苯收率支持向量分类(SVC)模型的分类和预测正确率分别为100%和96.2%;偏三甲苯收率支持向量回归(SVR)模型的拟合与预报的均方根误差(RMSE)分别为0.028和0.034。(b)较高的T4504塔底温度(T04-01)(203.5±0.5℃)、较低的T4503灵敏温度(T03-02)(126±0.5℃)和较低的回流比(R)(0.27±0.2)有利于降低芳烃抽提装置抽余油中的芳烃含量;抽余油中芳烃含量的SVC模型的分类和预测正确率皆为100%;抽余油中芳烃含量的SVR模型拟合与预报的均方根误差(RMSE)分别为0.072和0.060。最后,在装置生产技术人员的参与下,制定了基于装置优化模型的生产优化方案,并成功应用于装置生产优化实践,为稳定生产和提高企业经济效益起到了十分重要的作用。据初步统计,两个优化项目实施后已产生直接经济效益近600万元。3.采用密度泛函理论(DFT)方法计算了139个多环芳烃化合物(PAHs)的8个量子化学结构参数,用遗传算法(GA)-SVR特征筛选方法分别得到了关联多环芳烃沸点(bp)、正辛醇/水分配系数(logKow)和色谱保留指数(RI)的最佳量化参数集,用基于训练集留一法交叉验证方法得到优化的SVR模型参数,多环芳烃bp、logKow和RI的SVR模型对训练集(样本数分别为45、52和90)和测试集(样本数分别为12、13和23)拟合和预测的R2(分别为0.997、0.964和0.950)和q2(分别为0.999、0.897和0.931)值较大。结果表明:SVR方法结合DFT方法计算的量化参数可以建立PAHs若干物性的较佳的QSPR模型,所建模型有很好的预测性能。4.开发了预测结构多样的芳烃的正辛醇/水分配系数(logKow)的QSPR模型。首先利用不同的化学软件计算了350个芳烃的68个分子结构参数,然后用最小冗余最大相关(mRMR)-GA-SVR特征筛选方法得到7个较佳的分子结构参数集,再用SVR 5重交叉验证方法得到优化的SVR模型参数,最后将SVR算法用于总结训练集300种芳烃logKow的QSPR模型,并将该模型用于测试集50种芳烃logKow的预测。本文还将SVR模型对芳烃logKow的拟合/预测结果与人工神经网络方法(ANN)、多元线性回归方法(MLR)和偏最小二乘法(PLS)模型的结果进行了比较。结果表明:SVR模型对芳烃logKow的拟合/预测的R2和q2分别为0.85和0.84,明显优于ANN(分别为0.82和0.80)、MLR(分别为0.77和0.77)和PLS(分别为0.77和0.77)模型的结果。5.总结了包含不同取代基团的581种芳烃对梨形四膜虫毒性的QSAR模型。用mRMR-GA-SVR特征筛选方法从计算得到的68个芳烃分子描述符中选出6个关联芳烃毒性最好的分子描述符,然后用SVR 5重交叉验证方法优化训练集芳烃毒性的SVR模型参数,进而用SVR方法得到训练集500种芳烃毒性的QSAR模型,最后将该模型用于测试集81种芳烃毒性的预测,并将SVR模型与PLS模型预测性能进行了比较。结果表明:SVR模型对芳烃毒性拟合/预测的R2和q2分别为0.77和0.67,其结果明显优于PLS模型(R2和q2分别为0.69和0.58)。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 数据挖掘
  • 1.1.1 数据挖掘研究概况
  • 1.1.1.1 数据挖掘的发展历程
  • 1.1.1.2 数据挖掘的研究现状
  • 1.1.1.3 数据挖掘的发展趋势
  • 1.1.2 数据挖掘的任务
  • 1.1.3 数据挖掘的过程
  • 1.1.4 数据挖掘常用方法及技术
  • 1.2 化工过程优化
  • 1.2.1 化工过程优化研究概况
  • 1.2.1.1 化工过程优化研究历程
  • 1.2.1.2 化工过程优化研究现状
  • 1.2.1.3 化工过程优化的发展趋势
  • 1.2.2 化工过程优化分类
  • 1.2.2.1 离线操作优化
  • 1.2.2.2 在线操作优化
  • 1.2.3 化工过程优化常用方法及技术
  • 1.2.3.1 基于机理模型的优化方法
  • 1.2.3.2 基于数据模型的优化方法
  • 1.2.3.3 基于混合模型的优化方法
  • 1.3 化合物构效关系
  • 1.3.1 化合物构效关系研究概况
  • 1.3.1.1 化合物构效关系研究历程
  • 1.3.1.2 化合物构效关系研究现状
  • 1.3.1.3 化合物构效关系研究的发展趋势
  • 1.3.2 化合物构效关系研究过程
  • 1.3.2.1 化合物分子结构参数
  • 1.3.2.2 结构参数选择
  • 1.3.2.3 模型构建
  • 1.3.3 化合物构效关系研究方法
  • 1.3.3.1 Hansch分析法
  • 1.3.3.2 Free-Wilson法
  • 1.3.3.3 LSER(线性溶剂化能相关)法
  • 1.4 论文的组织结构及内容
  • 第二章 化学化工常用数据挖掘算法
  • 2.1 支持向量机算法
  • 2.1.1 统计学习理论概述
  • 2.1.1.1 VC维
  • 2.1.1.2 推广性的界
  • 2.1.1.3 结构风险最小化
  • 2.1.2 支持向量分类算法
  • 2.1.2.1 最优分类超平面
  • 2.1.2.2 线性可分的情况
  • 2.1.2.3 非线性可分情形
  • 2.1.3 支持向量回归算法
  • 2.1.3.1 ε-不敏感损失函数
  • 2.1.3.2 线性回归情形
  • 2.1.3.3 非线性回归情形
  • 2.1.4 支持向量机的核函数
  • 2.2 多元线性回归
  • 2.3 主成分分析法
  • 2.4 偏最小二乘法
  • 2.5 人工神经网络
  • 2.6 多重判别矢量法
  • 2.7 Fisher判别分析法
  • 2.8 小结
  • 第三章 基于数据挖掘的氨合成装置生产优化研究
  • 3.1 氨合成装置简介
  • 3.1.1 生产原理
  • 3.1.2 生产流程
  • 3.1.3 生产数据特点
  • 3.1.3.1 生产数据的复杂性
  • 3.1.3.2 生产数据的数据挖掘必要性
  • 3.2 DMOS合成氨优化系统的开发
  • 3.2.1 DMOS合成氨优化系统简介
  • 3.2.2 DMOS合成氨优化系统离线版软件
  • 3.2.2.1 软件结构
  • 3.2.2.2 数据处理流程
  • 3.2.2.3 图形用户界面
  • 3.2.2.4 离线版软件主要功能
  • 3.2.3 DMOS合成氨优化系统在线版软件
  • 3.2.3.1 图形用户界面
  • 3.2.3.2 在线版软件主要功能
  • 3.2.4 DMOS合成氨优化系统优化生产实施步骤
  • 3.2.5 DMOS合成氨优化系统主要特点
  • 3.3 氨合成装置生产优化模型的研究
  • 3.3.1 数据集
  • #合成塔生产优化数学模型'>3.3.2 1#合成塔生产优化数学模型
  • 3.3.2.1 数据预处理
  • 3.3.2.2 样本统计
  • 3.3.2.3 数学模型
  • 3.3.2.4 模型验证
  • #合成塔生产优化数学模型'>3.3.3 2#合成塔生产优化数学模型
  • 3.3.3.1 数据预处理
  • 3.3.3.2 样本统计
  • 3.3.3.3 数学模型
  • 3.3.3.4 模型验证
  • #合成塔生产优化数学模型'>3.3.4 3#合成塔生产优化数学模型
  • 3.3.4.1 数据预处理
  • 3.3.4.2 样本统计
  • 3.3.4.3 数学模型
  • 3.4 讨论和结论
  • 3.4.1 讨论
  • 3.4.2 结论
  • 第四章 数据挖掘技术在两个化工过程优化中的应用研究
  • 4.1 偏三甲苯装置生产优化
  • 4.1.1 偏三甲苯装置简介
  • 4.1.2 材料及方法
  • 4.1.2.1 数据集
  • 4.1.2.2 建模方法
  • 4.1.3 结果与讨论
  • 4.1.3.1 工艺参数选择
  • 4.1.3.2 变量统计分析
  • 4.1.3.3 偏三甲苯收率的定性建模
  • 4.1.3.4 偏三甲苯收率的定量建模和预报
  • 4.1.3.5 讨论
  • 4.1.4 结论
  • 4.2 芳烃抽提装置生产优化
  • 4.2.1 芳烃抽提装置简介
  • 4.2.2 材料及方法
  • 4.2.2.1 数据集
  • 4.2.2.2 建模方法
  • 4.2.3 结果与讨论
  • 4.2.3.1 工艺参数选择
  • 4.2.3.2 变量统计分析
  • 4.2.3.3 抽余油中芳烃含量的定性建模
  • 4.2.3.4 抽余油中芳烃含量的定量建模和预报
  • 4.2.3.5 讨论
  • 4.2.4 结论
  • 4.3 小结
  • 第五章 基于DFT和SVR方法的多环芳烃若干物性的QSPR研究
  • 5.1 引言
  • 5.2 材料和方法
  • 5.2.1 数据集
  • 5.2.2 计算机硬件和软件
  • 5.2.3 量子化学描述符
  • 5.2.4 基于GA-SVR方法的描述符选择
  • 5.2.5 SVR算法
  • 5.3 结果和讨论
  • 5.3.1 描述符选择
  • 5.3.2 SVR模型参数选择
  • 5.3.3 SVR模型
  • 5.3.3.1 沸点(bp)
  • 5.3.3.2 正辛醇/水分配系数(logKow)
  • 5.3.3.3 色谱保留指数(RI)
  • 5.3.4 SVR模型验证
  • 5.3.5 讨论
  • 5.3.5.1 量子化学参数解释
  • 5.3.5.2 SVR模型参数
  • 5.4 结论
  • 第六章 基于SVR方法的若干芳烃正辛醇/水分配系数的QSPR研究
  • 6.1 引言
  • 6.2 材料和方法
  • 6.2.1 数据集
  • 6.2.2 计算机硬件和软件
  • 6.2.3 分子描述符
  • 6.2.4 mRMR-GA-SVR特征选择
  • 6.2.5 回归算法
  • 6.3 结果和讨论
  • 6.3.1 描述符选择
  • 6.3.2 SVR模型参数选择
  • 6.3.3 SVR模型
  • 6.3.4 SVR模型验证
  • 6.3.5 讨论
  • 6.3.5.1 分子描述符解释
  • 6.3.5.2 SVR模型参数
  • 6.4 结论
  • 第七章 基于SVR方法的若干芳烃对水生梨形四膜虫毒性的QSAR研究
  • 7.1 引言
  • 7.2 材料和方法
  • 7.2.1 数据集
  • 7.2.2 计算机硬件和软件
  • 7.2.3 分子描述符
  • 7.2.4 mRMR-GA-SVR特征选择
  • 7.2.5 回归算法
  • 7.3 结果和讨论
  • 7.3.1 描述符选择
  • 7.3.2 SVR模型参数选择
  • 7.3.3 SVR模型
  • 7.3.4 SVR模型验证
  • 7.3.5 讨论
  • 7.4 结论
  • 第八章 结论与展望
  • 8.1 结论
  • 8.2 展望
  • 参考文献
  • 附录一 多环芳烃物性数据及部分量子化学参数
  • 附录二 芳烃分配系数数据及部分分子描述符
  • 附录三 芳烃对梨形四膜虫毒性数据及其部分分子描述符
  • 攻读博士学位其间公开发表的论文
  • 致谢
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    基于数据挖掘的若干化工过程优化和化合物构效关系研究
    下载Doc文档

    猜你喜欢