化学信息学新算法及在化学、生物与食品科学中的应用研究

化学信息学新算法及在化学、生物与食品科学中的应用研究

论文摘要

近年来,随着信息科学、计算机科学与互联网的高速发展,一种新的交叉学科-化学信息学(Chemoinformatics)也迅速成长起来了。化学信息学是一门利用信息学的方法来解决化学的问题,同时得到有关化学本质规律的的学科。化学信息学的研究范围十分广泛,内容丰富,例如化学试验设计与优化、定量校正理论、分析信号处理、化学模式识别、模型与参数估计、人工智能等。化学信息学产生于科学家们对化学知识规律的不断需要的过程中。化合物结构与性质/活性定量关系(quantitative structure-property /activityrelationship,QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法是指将化合物的结构参数同其生物活性数据以一定的数学模型相联系起来的定量关系。QSPR/QSAR的研究最初应用于生物领域是为了适应合理设计生物活性分子的需要而发展起来的。由于计算机技术的发展和应用,QSPR/QSAR的研究提高到了一个新的水平,且日趋成熟,其应用范围也迅速扩大,研究涉及生物,化学,药物科学,以及食品科学等诸多学科。人们期望用一个成功的数学模型,能从分子水平上理解其微观结构同其宏观性质/活性之间的关系,根据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素,然后为设计,筛选或预测具有人们期望性质的化合物提供信息。化学信息学的发展为化学各分支学科的发展提供了多种解决问题的新思路,新方法。本学位论文主要对化学信息学研究中的一些新算法进行了探讨,并把这些新算法成功应用于QSAR/QSPR研究领域中。该论文共包括五章节内容,每一个章节的具体内容如下所示:第一章:简述了化学信息学的基本概念和研究现状,以及多种化学信息学算法,也详细讲述了化学信息学研究的分支之一——QSAR,包括QSAR演变历史,基本原理以及实现的步骤等等。第二章:主要讨论了Quantitative structure-retention relationship (QSRR)方法在多肽色谱保留行为预测的应用研究。具体内容如下:(1)基于线性和非线性建模方法对反相液相色谱(RPLC)的101种多肽保留时间进行了定量结构保留关系建模研究。最佳多元线性回归(BMLR)方法用来选择与保留行为最为密切的分子描述符,并建立线性模型。另外两种非线性回归方法(径向基函数神经网络(RBFNN)和投影寻踪回归(PPR))用来构建非线性模型。RBFNN和PPR模型的训练集的相关系数(R2)分别为0.9787和0.9881;均方根误差(RMSE)为0.5666和0.4207。结果表明,RBF神经网络和投影寻踪回归将是蛋白质组研究中一种简单且有效的工具,并有望应用于其他类似的研究领域。(2)新颖的化学信息学方法—局部懒惰回归(LLR)首次应用于预测278个多肽在固定金属亲和色谱(镍柱)的保留行为研究。该工作分别用BMLR,PPR和LLR三种方法建立线性和非线性QSRR模型。最佳的LLR模型的训练集和测试集的R2分别为0.9446和0.9252。该工作证明新颖机器学习算法LLR是一个非常有前途的研究工具,它可用于色谱保留行为研究领域,为协助设计和分离纯化蛋白质和多肽发挥一定的作用。第三章主要描述了QSAR方法在农业和食品科学领域的应用研究,具体内容如下:(1)三种机器学习方法:遗传算法-多元线性回归(GA-MLR),最小二乘支持向量机(LS- SVM),PPR用于100个稻瘟病抑制剂噻唑啉衍生物的杀菌活性研究。线性模型GA-MLR和非线性模型LS-SVM和PPR都得到了良好的预测结果,但非线性模型提供了更加精确的预测能力。结果表明,非线性LS-SVM和PPR方法可以更加准确地模拟噻唑啉分子结构与杀菌活性之间的关系,能够成为研究稻瘟病抑制剂良好的建模工具。此外,这项研究为稻瘟病抑制剂的设计和开发提供了一种新的,简单而且有效的办法,同时得到的与其密切相关的分子结构信息。(2)运用定量结构保留关系方法对藏红花内43种芳香组分的SPME-GC-MS保留时间进行了预测。应用最佳多元线性回归(BMLR)和投影寻踪回归(PPR)方法分别建立了线性和非线性模型,两种方法均得到了较好的结果:线性模型的训练集和测试集的相关系数(R2)分别为0.9434和0.8725,非线性模型则给出了较好的预测结果分别为0.9806和0.9456。通过对模型的稳定性和预测能力的比较,可以看出非线性PPR方法可以较好的应用到SPME-GC-MS保留行为研究领域内,同时该工作又可以为其他植物和中草药的分离研究提供一种简便有效的方法。第四章主要讨论了定量构效关系在生命科学和医药研究领域内的应用,主要有以下几部分组成:(1)利用QSRR方法对55种药物在固相人工膜色谱内的保留指数进行了线性和非线性建模研究。在该工作中,线性BMLR方法被用来选取与保留指数最为相关的参数,同时建立线性回归模型;利用选取的描述符,应用PPR和LLR方法来建立更加准确的预测模型。通过模型对比,我们发现LLR作为一种新的建模方法,体现出较完美的预测能力,其训练集和测试集的预测结果为:复相关系数(R2),0.9540,0.9305;均方根误差(RMSE),0.2418,0.3949。结果显示,新型LLR建模方法在QSRR方法研究中表现出了较好的预测能力,同时该方法定会成功的应用于其它类似的色谱研究领域内。(2)利用线性和非线性建模方法研究了80个N-羟基-a-苯磺酰乙酰胺(N-hydroxy-aphenylsulfonylacetamidederivatives,HPSAs)衍生物对三种类型的基质金属蛋白酶的抑制活性。其中线性BMLR方法用来选取关键的结构参数,同时建立线性模型对所选化合物的抑制活性进行了预测;然后以全局格式搜索PPR方法利用选取的参数建立非线性回归模型。最终,线性和非线性模型均能提供较为满意的预测结果。在该工作中,非线性PPR方法首次与格式搜索(GS)方法相结合并成功应用于对HPSAs的抑制活性的建模研究,得到了令人满意的预测结果。该方法的成功为其他模型参数的优化与选取提供了一种捷径。(3)利用线性回归方法和非线性回归方法-格式搜索支持向量机(GS-SVM)和PPR方法对MT3褪黑激素结合位点的亲和性进行了研究。在该工作中,遗传算法被用来选取与研究对象最为相关的结构参数,并建立线性回归模型对MT3褪黑激素结合位点的亲和性进行预测;利用选取的五个结构变量,采用非线性回归方法GS-SVM和PPR方法建立更加准确的模型。通过模型对比,我们发现非线性PPR方法能够对MT3褪黑激素结合位点的亲和性具有比较准确的预测能力。该方法的建立,为设计和开发新型MT3褪黑激素的新型配体提供了一种新型的研究方法。第五章:QSAR方法在化学感应系统相对灵敏度的预测研究。在本章中,BMLR,SVM和LLR三种方法用来完成64种VOCs的气味检测阀值(ODTs)和鼻腔辛辣味阀值(NPTs)相对敏感性的QSAR建模研究,所得的预测结果和相应的实验数据基本吻合。相比之下,LLR方法能够获得更好的预测能力,因此,它在QSAR研究中是一种有效的机器学习算法。此外,本研究还确定了一些重要的分子结构信息,它们与VOC的相对敏感性密切相关。这些信息可以用来选择或制造一些新型的化学传感器,同时也说明LLR方法是一种很有前途的QSAR建模方法,可用于其他类似的化学传感器建模预测研究。

论文目录

  • 目录
  • 摘要
  • ABSTRACT
  • 论文创新之处
  • 第一章 化学信息学算法和定量结构-性质/活性关系综述
  • 1.1 化学信息学概况
  • 1.1.1 化学信息学的产生背景
  • 1.1.2 化学信息学的定义
  • 1.1.3 化学信息学的结构特点
  • 1.1.4 化学信息学的研究内容
  • 1.1.5 化学信息学的发展趋势
  • 1.1.6 化学信息学部分方法的简介
  • 1.2 定量构效关系的简介
  • 1.2.1 定量构效关系的概述
  • 1.2.2 定量构效关系(QSAR)的研究进展
  • 1.2.3 QSAR方法的基本步骤
  • 参考文献
  • 第二章 QSAR方法用于多肽色谱保留行为的预测研究
  • 2.1 应用RBFNN和PPR方法预测多肽在RPLC中的保留时间
  • 2.1.1 引言
  • 2.1.2 理论
  • 2.1.3 实验部分
  • 2.1.4 结果与讨论
  • 2.1.5 结论
  • 2.2 基于新颖方法对含组氨酸的多肽在固定金属亲和色谱中保留行为的预测
  • 2.2.1 引言
  • 2.2.2 数据集
  • 2.2.3 分子描述符的产生和选择
  • 2.2.4 最佳多元线性回归,投影寻踪回归和局部懒惰回归算法。
  • 2.2.5 模型的评价
  • 2.2.6 结果与讨论
  • 2.2.7 结论
  • 参考文献
  • 第三章 QSAR方法在农业食品科学领域的应用
  • 3.1 基于LS-SVM和PPR方法预测稻瘟病抑制剂的杀菌活性
  • 3.1.1 引言
  • 3.1.2 数据集和方法
  • 3.1.3 结果与讨论
  • 3.1.4 结论
  • 3.2 基于PPR的藏红花芳香组分的QSAR研究
  • 3.2.1 引言
  • 3.2.2 实验过程
  • 3.2.3 结果和讨论
  • 3.2.4 结论
  • 参考文献
  • 第四章 QSAR方法在生命科学和医药领域的应用
  • 4.1 应用投影寻踪回归和局部懒惰回归对磷脂膜色谱的药物分离保留指数进行预测
  • 4.1.1 引言
  • 4.1.2 算法的理论
  • 4.1.3 实验部分
  • 4.1.4 结果与讨论
  • 4.1.5 结论
  • 4.2 联合投影寻踪回归和网格搜索方法预测基质金属蛋白酶抑制剂的抑制活性
  • 4.2.1 引言
  • 4.2.2 实验部分
  • 4.2.3 结果与讨论
  • 4.2.4 结论
  • 4.3 新颖QSAR方法预测MT3褪黑激素结合位点的亲和性
  • 4.3.1 引言
  • 4.3.2 实验部分
  • 4.3.3 建模方法原理
  • 4.3.4 结果与讨论
  • 4.3.5 结论
  • 参考文献
  • 第五章 QSAR方法在化学感应系统方面的应用研究
  • 5 基于局部懒惰回归方法对一系列挥发性有机化合物的嗅觉与鼻子三叉神经化学感应系统相对灵敏度的预测
  • 5.1 引言
  • 5.2 实验部分
  • 5.3 结果和讨论
  • 5.4 结论
  • 参考文献
  • 附录Ⅰ 在读博士学位期间发表论文目录
  • 致谢
  • 相关论文文献

    • [1].基于深度学习的局部描述符[J]. 电子制作 2019(02)
    • [2].可组合的描述符泄露类型检查[J]. 计算机科学 2015(10)
    • [3].局部图像描述符最新研究进展[J]. 中国图象图形学报 2015(09)
    • [4].噪声不敏感的柱状图特征描述符及其在图像检索中的应用[J]. 计算机科学 2016(01)
    • [5].基于方向描述符的物体检测[J]. 光电工程 2014(03)
    • [6].不同局部邻域划分加速鲁棒特征描述符的性能分析[J]. 光学精密工程 2013(09)
    • [7].一种旋转不变特征描述符[J]. 光电子.激光 2010(06)
    • [8].定量构效关系研究中分子描述符的相关性[J]. 计算机与应用化学 2009(11)
    • [9].基于卷积神经网络的局部图像特征描述符算法[J]. 上海航天(中英文) 2020(01)
    • [10].基于形状描述符和孪生神经网络的纹理分割算法[J]. 微电子学与计算机 2020(04)
    • [11].芳烃分子描述符的修正和沸点预测建模[J]. 化工学报 2019(11)
    • [12].利用密度描述符对应的视觉跟踪算法[J]. 西安交通大学学报 2014(09)
    • [13].1553B总线远程终端描述符栈的研究与应用[J]. 空间电子技术 2014(02)
    • [14].血管性痴呆患者脑电信号的多通道线性描述符特征研究[J]. 西安交通大学学报 2011(04)
    • [15].结构上下文:一种新的物体类别描述符[J]. 计算机科学与探索 2010(04)
    • [16].颜色描述符提取算法在图像检索算法中的应用[J]. 科技资讯 2015(08)
    • [17].城镇绿地树种识别的数学描述符[J]. 遥感学报 2011(03)
    • [18].均值描述符:一种紧的三维模型多特征表示[J]. 计算机辅助设计与图形学学报 2011(10)
    • [19].三维模型匹配的谱图小波描述符[J]. 浙江大学学报(工学版) 2019(04)
    • [20].我国胡椒种质资源描述符研究与应用[J]. 中国热带农业 2017(05)
    • [21].多描述符和多尺度城镇建筑分类[J]. 遥感信息 2014(02)
    • [22].一种基于环间面积比的旋转、平移和缩放不变性描述符[J]. 模式识别与人工智能 2012(01)
    • [23].一种用于图像检索的多层语义二值描述符[J]. 计算机学报 2020(09)
    • [24].树描述符匹配算法在地形匹配中的应用[J]. 电脑与电信 2012(06)
    • [25].空间主颜色描述符的图像特征提取算法[J]. 沈阳理工大学学报 2011(04)
    • [26].一种新的局部仿射不变特征描述符[J]. 光电子.激光 2009(11)
    • [27].三元组描述符的特征匹配算法[J]. 计算机应用与软件 2019(02)
    • [28].基于颜色描述符的图像检索系统[J]. 信息系统工程 2017(03)
    • [29].基于马尔可夫过程的边缘描述符提取算法[J]. 科技视界 2015(14)
    • [30].特征联合和旋转不变空间分割联合的局部图像描述符[J]. 自动化学报 2016(04)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    化学信息学新算法及在化学、生物与食品科学中的应用研究
    下载Doc文档

    猜你喜欢