基因识别算法研究与基因组进化分析

基因识别算法研究与基因组进化分析

论文摘要

随着人类基因组计划的完成和后基因组时代的到来,生物序列数据呈指数级增长,分析处理大批量数据,从中提取对人类有价值的信息,成为了生物信息学研究的首要任务。我们的工作主要为两个方面:一是区分原核生物完全基因组DNA序列中的编码区与非编码区及人类完全基因组中的基因区与非基因区;二是利用脊椎动物线粒体完全基因组DNA序列与蛋白质序列、多瘤病毒完全基因组DNA序列与蛋白质序列分析物种之间的系统发育关系。本博士论文由四章组成。第一章绪论,主要介绍了生物信息学的概念与研究内容及研究意义、生物信息数据的组成、常用的生物信息处理的数学方法、基因识别算法的概念与当前已有的算法和软件、物种系统发育分析的现状和已有的算法与软件。第二章是关于完全基因组中编码区与非编码区的区分问题,主要综合运用分形、统计、信息等理论和方法,建立处理DNA序列数据的数学模型,应用已有的算法和我们提出的算法分析处理原核生物完全基因组DNA序列和人类完全基因组DNA序列,实现编码区与非编码区、基因区与非基因区的区分。目的在于分析这些基因识别方法的稳定性与高准确率,以期为探索新的未知基因提供新方法、新思想。在原核生物完全基因组的编码区与非编码区的区分中,通过应用了分形方法与Fourier变换方法,获得了较高的区分准确率。在分形方法中,平均区分准确率达78.41%,而Fourier变换方法的区分准确率达到了86.58%。在人类完全基因组的基因区与非基因区的区分中,通过综合应用重分形分析、正四面体、Z曲线和全局描述四种方法,尽管人类完全基因组内部结构非常复杂,仍然获得了高达83.74%的区分准确率。论文的第三章主要介绍系统发育分析的数学模型和方法。第四章应用这些方法去分析处理DNA序列、蛋白质序列等数据集(包括64种脊椎动物线粒体完全基因组序列和70种细菌完全基因组序列),构建物种间的系统发育树,分析各物种间的亲缘与进化关系。在64种脊椎动物线粒体完全基因组和70种多瘤病毒完全基因组的系统发育分析中,我们获得了与传统系统发育树一致的树,综合以前我们的工作发现,我们在系统发育分析研究中提出的方法和模型是可靠的、稳定的,对分析物种间的亲缘与进化关系是非常有意义的。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 生物信息学
  • 1.1.1 生物信息学的概念
  • 1.1.2 生物信息学的主要研究内容和任务
  • 1.1.3 生物信息学的研究意义
  • 1.2 生物信息数据
  • 1.3 分析处理生物信息的数学方法
  • 1.3.1 统计理论方法
  • 1.3.2 分形理论方法
  • 1.3.3 信息理论方法
  • 1.3.4 其它基于数学理论的分析方法
  • 1.4 基因识别算法
  • 1.5 物种系统发育分析
  • 1.6 论文的主要工作
  • 第2章 基因识别算法及其应用
  • 2.1 理论基础
  • 2.1.1 DNA序列的数字序列表示法
  • 2.1.2 重分形分析
  • 2.1.3 Fourier分析
  • 2.1.4 Z曲线方法
  • 2.1.5 正四面体(RT)方法
  • 2.1.6 DNA序列的全局描述(GD)方法
  • 2.1.7 Fisher线性判别法
  • 2.2 原核生物完全基因组中编码区与非编码区的区分
  • 2.2.1 重分形分析区分原核生物完全基因组编码区与非编码区
  • 2.2.2 傅立叶变换方法区分原核生物DNA的编码区与非编码区
  • 2.3 人类完全基因组DNA的基因区与非基因区的区分
  • 2.3.1 方法
  • 2.3.2 结果与讨论
  • 2.3.3 小结
  • 第3章 物种进化分析的数学理论
  • 3.1 组分矢量
  • 3.2 动力学语言模型
  • 3.3 Fourier变换
  • 3.4 熵密度分布
  • 3.5 互信息理论
  • 3.6 关联距离
  • 3.7 对数关联距离
  • 3.8 Kullback-Leibler 散度距离(KLD)
  • 第4章 基于距离的基因组进化分析
  • 4.1 脊椎动物线粒体基因组进化分析
  • 4.1.1 方法
  • 4.1.2 结果与讨论
  • 4.1.3 小结
  • 4.2 多瘤病毒基因组进化分析
  • 4.2.1 数据与方法
  • 4.2.2 结果与讨论
  • 4.2.3 小结
  • 总结论
  • 参考文献
  • 附录 (攻读博士学位期间发表的论文和参与的科研项目)
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基因识别算法研究与基因组进化分析
    下载Doc文档

    猜你喜欢