生物序列分析中的非比对方法及其应用

生物序列分析中的非比对方法及其应用

论文摘要

随着数学与计算机技术的飞速发展和巨量生物学数据的不断积累,一门新兴的充满活力的交叉学科——计算分子生物学(Computational Molecular Biology)应运而生。计算分子生物学主要是研究生物学应用上具有计算复杂度的问题,它吸引了许多计算机学家、分子生物学家、数学家等积极投入研究。生物序列分析是计算分子生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,而随着“后基因组(post-genome)”时代的到来,生物序列分析的非比对方法作为对传统方法的补充和发展已逐渐成为计算分子生物学研究中的一个热点领域。本文在对传统的序列比对方法进行简要回顾的基础上,较系统地总结了已有的非比对方法并提出了一些新的非比对方法,然后针对一些具体的生物序列进行了分析研究。本文的主要工作包括以下几个方面:基于生物序列的概率向量表示,提出了一种新的距离度量——正规化欧氏距离,重构了两组蛋白质序列集CK35和SP86的二级结构分类,并利用ROC曲线和AUC值与传统的比对方法和其它距离度量得到的分类结果进行了比较。以生物序列L-联体为核心,给出了DNA序列的一种8D向量表示和高维向量表示,并根据滑动窗口不同的起始位置构造相关矩阵,选取相关矩阵的正规化最大特征值和Frobenius范数作为数值特征比较序列的相似性。作为应用,我们比较了十一个物种的β-球蛋白基因的第一个外显子的相似性;简单模拟了DNA序列高维向量表示及相关矩阵在数据库搜索方面的应用;重构了H5N1型禽流感病毒全基因组编码序列的种系进化树。基于L-联体在生物序列中出现的次数和位置,根据离散随机变量分布函数的定义提出了L-联体特征分布的概念,以此来反映L-联体的分布规律,揭示生物序列中所包含的生物信息。利用此特征分布我们研究了11个物种β-球蛋白第一个外显子的GC特征分布图;重构了24种冠状病毒全基因组序列,34种哺乳动物线粒体全基因组序列和40种跨膜蛋白序列的种系树。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 计算分子生物学概述
  • 1.1.1 计算分子生物学的研究内容
  • 1.1.2 计算分子生物学研究中的数学方法
  • 1.2 分子生物学的知识概论
  • 1.2.1 DNA、RNA和蛋白质
  • 1.2.2 分子遗传学机制
  • 1.3 本文主要工作
  • 2 生物序列分析中的非比对方法
  • 2.1 引言
  • 2.2 生物序列分析中的比对方法
  • 2.2.1 两条生物序列的比对
  • 2.2.2 多条生物序列的比对
  • 2.2.3 多序列比对中的打分矩阵
  • 2.3 生物序列分析中的非比对方法
  • 2.3.1 几何方法
  • 2.3.2 代数方法
  • 2.4 概率向量的正规化欧氏距离
  • 2.5 DNA序列L-联体的特征分布
  • 2.6 DNA序列的向量表示及相关矩阵
  • 2.6.1 DNA序列的8D向量表示及相关矩阵
  • 2.6.2 DNA序列的高维向量表示及相关矩阵
  • 2.7 小结
  • 3 基于非比对方法构建种系发生树
  • 3.1 引言
  • 3.2 种系发生树的重建步骤及方法
  • 3.3 基于DNA序列的高维向量表示构建种系树
  • 3.4 基于生物序列L-联体的特征分布构建种系树
  • 3.4.1 冠状病毒全基因组序列的种系树
  • 3.4.2 哺乳动物线粒体基因组序列的种系树
  • 3.4.3 跨膜蛋白序列的种系树
  • 3.5 小结
  • 附录 8D表示法唯一性的讨论
  • 结论
  • 参考文献
  • 攻读博士学位期间完成、发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    生物序列分析中的非比对方法及其应用
    下载Doc文档

    猜你喜欢