论文摘要
随着人类基因组计划的完成和后基因组时代的到来,生物序列数据呈指数级增长,分析处理大批量数据,从中提取对人类有价值的信息,成为了生物信息学研究的首要任务。我们的工作主要为两个方面:一是区分原核生物完全基因组DNA序列中的编码区与非编码区及人类完全基因组中的基因区与非基因区;二是利用脊椎动物线粒体完全基因组DNA序列与蛋白质序列、多瘤病毒完全基因组DNA序列与蛋白质序列分析物种之间的系统发育关系。本博士论文由四章组成。第一章绪论,主要介绍了生物信息学的概念与研究内容及研究意义、生物信息数据的组成、常用的生物信息处理的数学方法、基因识别算法的概念与当前已有的算法和软件、物种系统发育分析的现状和已有的算法与软件。第二章是关于完全基因组中编码区与非编码区的区分问题,主要综合运用分形、统计、信息等理论和方法,建立处理DNA序列数据的数学模型,应用已有的算法和我们提出的算法分析处理原核生物完全基因组DNA序列和人类完全基因组DNA序列,实现编码区与非编码区、基因区与非基因区的区分。目的在于分析这些基因识别方法的稳定性与高准确率,以期为探索新的未知基因提供新方法、新思想。在原核生物完全基因组的编码区与非编码区的区分中,通过应用了分形方法与Fourier变换方法,获得了较高的区分准确率。在分形方法中,平均区分准确率达78.41%,而Fourier变换方法的区分准确率达到了86.58%。在人类完全基因组的基因区与非基因区的区分中,通过综合应用重分形分析、正四面体、Z曲线和全局描述四种方法,尽管人类完全基因组内部结构非常复杂,仍然获得了高达83.74%的区分准确率。论文的第三章主要介绍系统发育分析的数学模型和方法。第四章应用这些方法去分析处理DNA序列、蛋白质序列等数据集(包括64种脊椎动物线粒体完全基因组序列和70种细菌完全基因组序列),构建物种间的系统发育树,分析各物种间的亲缘与进化关系。在64种脊椎动物线粒体完全基因组和70种多瘤病毒完全基因组的系统发育分析中,我们获得了与传统系统发育树一致的树,综合以前我们的工作发现,我们在系统发育分析研究中提出的方法和模型是可靠的、稳定的,对分析物种间的亲缘与进化关系是非常有意义的。