论文摘要
基因和蛋白质都是化合物,它们是化学计量学研究者从一开始就最感兴趣的研究目标。基因和蛋白质的结构和功能,蛋白质与配体的结合过程,酶受体中反应基质向产物的转变过程等等都是化学计量学研究的热门问题。近几年来,随着人类基因组计划以及很多生物的基因组测序工作的完成,核酸以及蛋白质序列的数目成倍增长,呈“爆炸”之势。当务之急是,研发出更多的准确而快速的分析工具,从如此汹涌而至的海量数据中最大限度的提取有用信息。不断地开拓新的思路、发现新的分析方法、工具和软件,从而高产量、高精确度的分析和挖掘原始的核酸、蛋白质序列数据是化学计量学的新的发展动力。本论文基于小波分析(wavelet analysis )、系统聚类分析法(hierarchical cluster analysis (HCA))、支持向量机(support vector machine (SVM))和人工神经网络(probabilistic neural network (ANN) )等化学计量学技术,结合一些生物信息学的方法,以核酸和蛋白质序列数据为对象,作了以下三个方面的研究:1、基于完全基因组的系统树构建新方法的研究;2、膜蛋白跨膜区域预测新方法的研究;3、联合多特征的基因预测新方法的研究。主要内容如下:第一章文献综述讲述了小波分析(wavelet analysis )、系统聚类分析法(hierarchical cluster analysis (HCA))、支持向量机(support vector machine (SVM))和人工神经网络(artificial nerves net (ANN) )等化学计量学技术的发展简史,介绍了这些分析方法的基本数学原理,并对其应用研究分别进行了评述。第二章基于完全基因组的系统树构建新方法的研究随着各层次生物的分类研究由形态状转向分子资料,分子进化树构建方法的性能受到人们的日益重视。发展新的建树方法一直是人们研究的热点。本文基于小波频率分析提取物种基因组序列的频率特征发展了一种新的推断物种间系统发生关系的建树方法。这种方法不需要任何序列联配,并首次从频域的角度分析了物种间的进化关系。它基于各物种完全基因组整体特征间的比较,推断物种间的系统发生关系。且计算机复杂度较低,简单快速。虽然SARS已得到有效控制,然而目前还没有特效药物可以有效治愈该疾病。对冠状病毒内部亲缘关系的研究将有助于抗病毒药物及疫苗的开发。虽然国内外有关专家做了大量研究工作,取得了不少成果,然而由于SARS是个突如其来,威胁严重,又突无其踪的一种新的疾病,给研究工作带来不少难题,至今有关SARS起源的研究仍然扑朔迷离。以11个冠状病毒(包含SARSCoV)作为研究对象,用它们的全基因组序列构建了无根和有根的进化树,讨论了SARSCoV的起源问题,所得结果与加拿大,美国,中国北京的SARS研究组的分类结果一致,佐证了SARSCoV是一种新的冠状病毒并与第二组冠状病毒关系最近,而且增加了一些细节。另外,以冠状病毒的多聚蛋白ORF1ab以及S、E、M、N等结构蛋白的同源基因作为对象,构建系统进化树,更进一步研究了冠状病毒的内部亲缘关系和SARS-冠状病毒的进化路径,所得结论将有助于抗病毒药物及疫苗的开发。原核生物在地球上分布最广泛,理解它们的进化关系尤为必要。它们在人类健康和经济方面的影响,如同在真核生物进化中的作用一样重要,因此研究原核生物的进化成为一个特别引人注目的课题。然而,原核生物的分类是生物分类学上的一大挑战,传统的分类因缺乏可观察的形态学特征而变得困难。我们以4个古细菌、20个细菌和4个作参照用的真核生物为例,构建了它们的小亚基核糖体(SSU rRNA)进化树,与著名的卡尔.沃斯SSU rRNA生命树,蛋白质树和别的基于全基因组方法的进化树,以及最近2005年的Bergey’s细菌系统分类手册的分类作比较,不仅为我们提出的方法提供了佐证,而且增加了一些细节。第三章基于小波变换的膜蛋白的跨膜区域预测研究膜蛋白是一类嵌在生物膜中的蛋白质,在细胞中具有重要的生物功能,它们构成了各种神经信号分子、激素和受体,是各种离子跨膜的通道,也是许多药物分子的靶点。然而,膜蛋白与生物膜的稳定构象非常不利于用X光晶体衍射方法和核磁共振技术测定其三维结构,目前仅有少数膜蛋白的结构已知。因此,设计准确、高效的预测膜蛋白结构的方法成为生物信息学中重要的研究课题。以多尺度morlet连续小波变换为基础,提出了一种用于预测膜蛋白跨膜序列的方法(连续小波变换极大值谱(MSCWT))。该法对重要的8种SARS-CoV膜蛋白的预测准确度与常用膜蛋白预测软件TMpred相当,对MPtopo膜蛋白数据库中131种新的已知结构的螺旋束蛋白(共包含548个跨膜区)的预测显示:其跨膜螺旋区预测准确率为91.6%,膜蛋白序列的预测准确率为89.3%。实验结果显示本文所述的方法能够快速准确地预测跨膜区的位置和数量,其有望成为研究膜蛋白的一种有力的新工具。用连续小波变换极大值谱(MSCWT)预测膜蛋白跨膜区,它可准确预测跨膜区段的起始和终止位点等信息,还可用于进一步分析单一肽链上其它更细微的结构。但由于图谱中有相当多“毛刺”,非常不便于观察跨膜信号峰,妨碍了对跨膜区域的发现。因此我们又开发了一种新的用于预测膜蛋白跨膜区的波谱技术:连续小波变换加和谱(SSCWT)。这种方法在很大程度上加强了跨膜信号峰。SSCWT图谱中跨膜信号峰明显、清晰且无毛刺,有利于大规模快速预测跨膜蛋白结构。将这种预测方法应用于120条膜蛋白序列(共包含537个跨膜区)结构的预测,并将实验结果同网上通用的膜蛋白预测软件TMpred和DAS的预测结果加以比较,证明了它具有相当高的准确性。第四章联合多特征的基因预测算法研究可靠预测DNA序列中的基因是基因组工程的重要任务之一。生物学家研究发现DNA序列中得基因具有某些特殊的特征。现存的基因预测算法很多都只是根据基因的一种特征设计预测的。本文计算了基因编码区具备的四个特征:三周期性、碱基相位偏移特征、高GC含量特性和基于张春庭院士课题组提出的Z曲线特征。分别发展了基因区域识别的BP神经网络分类模型、概率神经网络分类模型和基于支持向量机(SVM)的分类模型,预测可能的编码区。最后以序列搜索的方式检测启动、终止密码子与剪切位点等信息最终确定基因的基本结构。其中概率神经网络分类模型和基于支持向量机(SVM)的分类模型较BP神经网络模型的结果稳定、分类精度高。本文的三种基因预测模型提供了一类有效的研究基因预测的方案。