支持向量回归在化学农药定量构效关系中的应用

支持向量回归在化学农药定量构效关系中的应用

论文摘要

化学农药的中心研究问题之一就是新农药的开发——开发对不利于农业生产的植物虫害、病害、杂草等具有期望活性的化合物。随着农业生产有害物对传统农药的抗性增强以及人们对绿色食品的要求,使新化学农药的创制难度加大,采用传统方法大量盲目合成再筛选,显然费时、费力、费钱,且对环境带来污染,因此将定量构效关系(QSAR)应用于农药的创制起到了极其重要的作用。QSAR研究涉及三大问题:获得表征化合物分子结构的描述符、筛选描述符及选择建模方法。描述符的获得首先可通过查阅文献得到低维描述符(描述符的个数一般不多于10个,仅能表征化合物的部分信息),其次可通过E-Dragon 1.0等软件计算得到高维描述符(描述符的个数成千上万,能表征绝大部分化合物信息)。低维描述符的筛选可采用前期建立的非线性多轮末尾淘汰法进行,而高维描述符的筛选问题一直未获根本性解决:非线性多轮末尾淘汰法用于高维描述符筛选时计算速度慢、时间耗费巨大;逐步线性回归仅适用于线性问题;主成分分析是用主成分来代替多个描述符的线性加权组合,因此基于主成分建立的模型解释性差。常用于QSAR建模方法有多元线性回归(MLR)、逐步线性回归(SLR)、偏最小二乘回归(PLS)、二次多项式回归(QPR)等线性或拟线性模型,这些传统模型解释性较好,但对高维、非线性、小样本问题的解析能力有限,人工神经网络(ANN)具有很好的非线性逼近能力,但存在模型结构难以确定、可解释性差、易出现过度训练、训练不足或易陷入局部最小等诸多缺陷,基于统计学习理论的支持向量回归(SVR)较好地解决了小样本、非线性、过拟合、维数灾、局部极小等问题,且泛化推广能力优异。本文为解决化学农药QSAR研究中合理选择描述符的问题,采用ChemDraw结合E-Dragon 1.0对3个化学农药相关数据集进行了描述符的计算,均得到了超过1000个描述符,描述符的类型多达24类,如:结构描述符、拓扑描述符、2D自相关描述符、3D-MoRSE描述符等,为从中快速获得与化合物活性相关的描述符,基于SVR建立了高维描述符非线性快速筛选法,采用杀虫剂、杀菌剂、除草剂等3类化学农药相关化合物进行验证,与文献常用描述符进行了比较分析,结果显示:1、基于SVR及文献中提供的描述符对三类化学农药进行了QSAR研究,包括三元不对称有机磷酸酯类杀虫剂(22个样本)、新型含噻唑和三唑环的亚胺类杀菌剂(17样本)和2-羟基-3-烷基-1,4-萘醌类除草剂(23样本)等。首先对文献提供的描述符进行了相关分析,发现描述符中大多数描述符间的相关系数均达到了极显著相关水平,特别是2-羟基-3-烷基-1,4-萘醌类化合物的描述符HE与ClogP、Polar与ClogP的相关系数分别达到了0.99和1.00;除了这种线性相关关系外,描述符间可能还存在非线性相关关系,因此采用实验室前期建立的基于SVR非线性多轮末尾淘汰法筛选描述符。结果发现,对描述符筛选前、后的数据集进行留一法预测发现,经筛选描述符后的模型性能值(MSE、R2、F值)均有所提升,证实了该方法能有效剔除与化合物活性值无关或可被其他参数替代的描述符,且对线性相关的描述符HE、ClogP和Polar也能进行有效的筛选。最后基于描述符重要性分析对保留描述符进行了重要性排序,给出了描述符对化合物活性值影响的大小排序,增强了模型的可解释性。2、以上描述符选择结果表明,常用描述符所包涵的信息有限且可能与特定化合物活性并无相关性,因此所建模型性能一般,采用本文建立的高维描述符非线性快速筛选法,对3个化合农药相关数据集通过软件计算获得的高维描述符进行筛选,最后均得到了意义明确的、不多于8个的保留描述符。留一法预测结果表明,经非线性筛选描述符后模型的留一法预测性能均得到了大幅提升,与原文献提供的描述符相比优势明显,充分说明了新的描述符筛选方法能有效地从大量描述符中准确地找出与化合物活性相关的且意义明确的描述符。进一步采用SVR回归显著性测验对所建QSAR模型是否可用进行了分析,以及采用单因子重要性分析对保留描述符进行了重要性排序,增强了所建QSAR模型的可解释性。综上,本文基于支持向量回归建立了高维描述符非线性快速筛选法,为化学农药QSAR研究中描述符的选择提供了理论基础,在化合物的QSAR中具有广泛应用前景。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1 QSAR的发展历史
  • 2 QSAR的研究方法
  • 2.1 二维定量构效关系研究(2D-QSAR)
  • 2.1.1 Hansch方程
  • 2.1.2 Free-Wilson模型
  • 2.1.3 分子连接性法
  • 2.2 三维定量构效关系研究(3D-QSAR)
  • 2.2.1 比较分子力场分析法
  • 2.2.2 比较分子相似性法
  • 2.2.3 虚拟受体法
  • 2.2.4 分子形状分析法
  • 2.2.5 距离几何法
  • 2.2.6 比较结合能分析法
  • 2.2.7 其他3D-QSAR方法
  • 2.3 多维定量构效关系研究
  • 3 QSAR的基本研究步骤
  • 3.1 相关数据的收集和整理
  • 3.2 生成及优化分子结构式
  • 3.2.1 ChemOffice
  • 3.2.2 ChemWindow
  • 3.3 计算及选择分子结构描述符
  • 3.3.1 经验性描述符
  • 3.3.2 组成描述符
  • 3.3.3 拓扑描述符
  • 3.3.4 几何描述符
  • 3.3.5 电荷相关描述符
  • 3.3.6 量子化学描述符
  • 3.3.7 其他描述符
  • 3.4 选择合适的QSAR建模方法并建立QSAR模型
  • 3.4.1 偏最小二乘法
  • 3.4.2 遗传算法
  • 3.4.3 人工神经网络
  • 3.4.4 支持向量回归
  • 3.5 检验QSAR模型
  • 4 本论文研究内容
  • 第二章 基于常用描述符的化学农药QSAR研究
  • 1 引言
  • 2 材料与方法
  • 2.1 数据集
  • 2.1.1 数据集1:三元不对称有机磷酸酯类杀虫剂
  • 2.1.2 数据集2:新型含噻唑和三唑环的亚胺类杀菌剂
  • 2.1.3 数据集3:2-羟基-3-烷基-1,4-萘醌类除草剂
  • 2.2 相关分析
  • 2.3 基于均方误差的非线性多轮末尾淘汰法筛选描述符
  • 2.4 回归模型显著性检验
  • 2.5 描述符重要性分析
  • 2.6 评价指标
  • 3 结果与讨论
  • 3.1 三元不对称有机磷酸酯类杀虫剂的QSAR研究
  • 3.1.1 相关分析结果
  • 3.1.2 非线性多轮末尾淘汰法筛选描述符结果分析
  • 3.1.3 描述符重要性分析结果
  • 3.2 新型含噻唑和三唑环的亚胺类杀菌剂QSAR研究
  • 3.2.1 相关分析结果
  • 3.2.2 非线性多轮末尾淘汰法筛选描述符结果分析
  • 3.2.3 描述符重要性分析结果
  • 3.3 2-羟基-3-烷基-1,4-萘醌类除草剂QSAR研究
  • 3.3.1 相关分析结果
  • 3.3.2 非线性多轮末尾淘汰法筛选描述符结果分析
  • 3.3.3 描述符重要性分析结果
  • 4 小结
  • 第三章 高维描述符非线性快速筛选法的建立及用于化学农药QSAR研究
  • 1 引言
  • 2 数据与方法
  • 2.1 分子描述符的计算和特征选取
  • 2.1.1 ChemDraw绘制化合物分子结构并获得分子式
  • 2.1.2 E-Dragon 1.0计算描述符
  • 2.2 基于SVR的高维描述符非线性快速筛选
  • 3 结果与分析
  • 3.1 三元不对称有机磷酸酯类杀虫剂的QSAR研究
  • 3.1.1 高维描述符非线性快速筛选结果与分析
  • 3.1.2 描述符重要性分析结果
  • 3.2 新型含噻唑和三唑环的亚胺类杀菌剂QSAR研究
  • 3.2.1 高维描述符非线性快速筛选结果与分析
  • 3.2.2 描述符重要性分析结果
  • 3.3 2-羟基-3-烷基-1,4-萘醌类除草剂QSAR研究
  • 3.3.1 高维描述符非线性快速筛选结果与分析
  • 3.3.2 描述符重要性分析结果
  • 4 小结
  • 第四章 结论与展望
  • 1 结论
  • 2 展望
  • 参考文献
  • 致谢
  • 作者简历
  • 相关论文文献

    • [1].基于深度学习的局部描述符[J]. 电子制作 2019(02)
    • [2].可组合的描述符泄露类型检查[J]. 计算机科学 2015(10)
    • [3].局部图像描述符最新研究进展[J]. 中国图象图形学报 2015(09)
    • [4].噪声不敏感的柱状图特征描述符及其在图像检索中的应用[J]. 计算机科学 2016(01)
    • [5].基于方向描述符的物体检测[J]. 光电工程 2014(03)
    • [6].不同局部邻域划分加速鲁棒特征描述符的性能分析[J]. 光学精密工程 2013(09)
    • [7].一种旋转不变特征描述符[J]. 光电子.激光 2010(06)
    • [8].定量构效关系研究中分子描述符的相关性[J]. 计算机与应用化学 2009(11)
    • [9].基于卷积神经网络的局部图像特征描述符算法[J]. 上海航天(中英文) 2020(01)
    • [10].基于形状描述符和孪生神经网络的纹理分割算法[J]. 微电子学与计算机 2020(04)
    • [11].芳烃分子描述符的修正和沸点预测建模[J]. 化工学报 2019(11)
    • [12].基于梯度信息描述符的图像匹配算法[J]. 激光与光电子学进展 2020(14)
    • [13].利用密度描述符对应的视觉跟踪算法[J]. 西安交通大学学报 2014(09)
    • [14].1553B总线远程终端描述符栈的研究与应用[J]. 空间电子技术 2014(02)
    • [15].血管性痴呆患者脑电信号的多通道线性描述符特征研究[J]. 西安交通大学学报 2011(04)
    • [16].结构上下文:一种新的物体类别描述符[J]. 计算机科学与探索 2010(04)
    • [17].颜色描述符提取算法在图像检索算法中的应用[J]. 科技资讯 2015(08)
    • [18].城镇绿地树种识别的数学描述符[J]. 遥感学报 2011(03)
    • [19].均值描述符:一种紧的三维模型多特征表示[J]. 计算机辅助设计与图形学学报 2011(10)
    • [20].三维模型匹配的谱图小波描述符[J]. 浙江大学学报(工学版) 2019(04)
    • [21].我国胡椒种质资源描述符研究与应用[J]. 中国热带农业 2017(05)
    • [22].多描述符和多尺度城镇建筑分类[J]. 遥感信息 2014(02)
    • [23].一种基于环间面积比的旋转、平移和缩放不变性描述符[J]. 模式识别与人工智能 2012(01)
    • [24].一种用于图像检索的多层语义二值描述符[J]. 计算机学报 2020(09)
    • [25].树描述符匹配算法在地形匹配中的应用[J]. 电脑与电信 2012(06)
    • [26].空间主颜色描述符的图像特征提取算法[J]. 沈阳理工大学学报 2011(04)
    • [27].一种新的局部仿射不变特征描述符[J]. 光电子.激光 2009(11)
    • [28].三元组描述符的特征匹配算法[J]. 计算机应用与软件 2019(02)
    • [29].基于颜色描述符的图像检索系统[J]. 信息系统工程 2017(03)
    • [30].基于马尔可夫过程的边缘描述符提取算法[J]. 科技视界 2015(14)

    标签:;  ;  ;  ;  ;  ;  ;  

    支持向量回归在化学农药定量构效关系中的应用
    下载Doc文档

    猜你喜欢