论文摘要
现代分析科学与计算机科学的发展为我们提供了大量而又丰富的化学数据,在这些化学数据中蕴藏着巨大的化学信息。在仪器硬件设备不断改进的今天,通过数学知识以及化学信息学知识去解析这些化学数据,同样可以有效的提高仪器的应用效果。然而如何有效的将这些蕴涵在大量的化学量测数据中的化学信息提取出来,是分析化学工作者们所面临的巨大的挑战与极大的机遇。红外光谱与质谱作为有机化学工作者应用最为广泛的两类谱图,通过几十年的发展,积累了大量的谱图数据。这些为我们应用化学信息学知识,利用计算机辅助对有机波谱进行解析提供了有力的条件。在对波谱解析的研究中,通过对波谱进行数学转换,应用特征挑选方法进行数据优化降维,在近十年引起了这一领域越来越多课题组的关注。本文的研究对象为:OMNIC数据库中的红外光谱,NIST 2.0质谱数据库中的质谱。研究内容:通过将原始谱图进行适当的数学转化,生成一定数量的谱图特征;应用特征挑选方法,对这些谱图特征进行挑选形成最优的谱图特征集合,达到数据去冗降维的目的;将一系列分类方法应用于挑选出的最优谱图特征集合,讨论挑选的意义以及对分类结果的影响。研究方法:采用了两种特征挑选方法,Fisher比率(Fisher ratios),遗传算法和偏最小二乘回归相结合(GA-PLS);针对不同研究对象共使用五种分类方法,K最邻近法(KNN),支持向量机(SVM),助推法与分类回归树(AdaBoost-CART),分类回归树(CART),概率神经网络(PNN)。作为振动光谱的红外光谱,对烯烃的顺/反(cis-/trans-)结构具有很好的识别能力,然而由于特殊官能基团对分子振动的影响,对光谱中顺/反结构的直观解析,有时存在较大的困难。因此针对红外光谱,本文主要的研究目的是对烯烃化合物的顺/反构型进行分类预测。通过对原始谱图特征挑选,应用SVM,PNN两种分类方法建立分类器进行预测,与未应用特征挑选方法而直接使用全谱的分类器进行比较,研究结果显示应用了特征挑选的分类器可以得到更佳的分类效果;其中,通过GA-PLS挑选的特征建立的分类器预测效果明显好于Fisher ratios挑选特征构建的分类器。不同于谱图表现为连续谱的红外光谱,质谱由于是离子碎片形成的谱图,其含有的化学结构信息更多,同时也更加难以直观的进行解析判断。因此对质谱进行解析时,需要采取一系列的数学转化方法,得到一定数量的质谱特征;同时因为这些特征均具有较强的化学结构解释的意义,当我们采用特征挑选方法提取这些特征时,也就相应找到了在对该物质进行质谱解析时,起到关键作用的化学结构。针对质谱,本文主要的研究目的可以分为两个部份:对含有苯甲氧基以及其相似结构的四种经常存在于医药中间体中的化学结构进行分类预测;根据国家标准(GB 4839-1998)中对于杀虫剂的介绍,应用特征挑选方法与各种分类方法组合对有机氯类,有机磷类,氨基甲酸酯类和拟除虫菊酯类这四种常见农药的结构分类预测。研究结果均显示,使用特征挑选方法能够有效地提高分类器的预测能力。