生物序列的几何刻画及应用

生物序列的几何刻画及应用

论文摘要

随着各种模式生物基因组计划的蓬勃发展和相继完成,特别是人类基因组计划的顺利完成,生物学数据积累出现了前所未有的飞跃。伴随着这些生物数据的迅猛增长,生物信息学作为一门崭新的交叉学科运用而生并且得到了迅速的发展,正逐步成为21世纪自然科学的核心领域之一。它以数学、统计数、计算机科学为研究工具,以核酸、蛋白质等生物大分子为主要研究对象,对其进行科学的采集、存储、传递、检索、分析,进而探索生命的起源、生物的进化、生命本质等重大理论问题。生物信息学的研究内容十分丰富,主要有:序列比较、系统发育分析、基因预测、蛋白质结构预测、药物设计、生物化学模拟、整个基因组分析、RNA结构预测、序列重叠群装配、公共数据库和数据格式等等。本文我们主要在序列比较以及分子进化分析等方面进行了一些研究,主要研究成果有:在第二章中,我们基于CGR的思想,给出了RNA二级结构序列和蛋白质序列的2-D图形表示方法。避免了一些之前提出的生物大分子序列的图形表示模型的缺陷。同时我们分别用所提出的方法分析了不同序列的相似性,并构造了蛋白质序列的进化树。在第三章中,我们将三次样条函数光滑化后的曲线的曲率引入生物序列的相似性分析中,提出用曲线的曲率作为新的度量。并且我们以11种物种的β球蛋白基因和它的每一个外显子编码序列为例,分析了它们之间的相似性并构造了进化树。同时我们还研究了每一个外显子,发现第二个外显子所涵盖的生物信息要多一些。此方法具有准确性高,计算简单等优点。在第四章中,我们避免了上章中用光滑化后的近似结果的不精确性,提出了挠率的差分形式。我们把挠率的差分形式作为新的描述子来刻画蛋白质序列中的TOPstrings,然后我们分析了34条TOPS strings的相似性,并与基于Clustal X方法得到的结果做了一些比较,取得了比较好的结果。此方法同样也具有准确性高,计算简单等优点。在第五章中,我们不是单纯考虑曲线的一个特征量,而是把曲线的曲率和挠率两个特征量联合起来,作为一个新的度量,来分析DNA序列的相似性。应用此方法我们分析了11种物种的β球蛋白基因和它的每一个外显子,取得了比较好的结果。并且应用此方法我们对各种冠状病毒之间的亲缘关系进行了一系列的分析研究,并构造了它们的进化树。最后我们对比了以往常见的基于矩阵不变量的方法,从时间和数值结果对比上可以发现我们的方法要优越些,我们的方法过程简单,计算速度快。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 生物信息学产生的背景
  • 1.2 生物信息学的研究对象
  • 1.2.1 核酸
  • 1.2.2 蛋白质
  • 1.2.3 分子遗传机制
  • 1.3 生物信息学的主要研究内容
  • 1.3.1 序列比较
  • 1.3.2 系统发育与分子进化
  • 1.4 本文主要工作
  • 2 生物序列的图形表示及相似性分析
  • 2.1 引言
  • 2.1.1 2-D图形表示
  • 2.1.2 3-D图形表示
  • 2.1.3 其他的图形表示
  • 2.2 RNA二级结构序列的2-D图形表示
  • 2.2.1 2-D图形表示模型的提出
  • 2.2.2 RNA二级结构序列的数值特征
  • 2.2.3 RNA二级结构序列的相似性分析
  • 2.3 蛋白质序列的2-D图形表示
  • 2.3.1 2-D图形表示模型的提出
  • 2.3.2 蛋白质序列的相似性分析
  • 2.4 本章小节
  • 3 曲率在生物序列相似性分析中的应用
  • 3.1 引言
  • 3.1.1 由图形表示提取矩阵
  • 3.1.2 矩阵的不变量
  • 3.1.3 利用不变量来比较生物序列的相似性
  • 3.2 曲率在生物序列相似性比较中的应用
  • 3.2.1 材料和方法
  • 3.2.2 相似性分析
  • 3.3 本章小节
  • 4 挠率在生物序列相似性分析中的应用
  • 4.1 蛋白质的TOPS图表示
  • 4.2 3-D图形表示
  • 4.3 差分形式的挠率
  • 4.4 相似性分析
  • 4.5 本章小节
  • 5 曲率和挠率联合的应用
  • 5.1 材料和方法
  • 5.1.1 3-D图形表示
  • 5.1.2 曲率和挠率的差分公式
  • 5.2 相似性分析
  • 5.3 本章小节
  • 结论
  • 参考文献
  • 攻读博士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].数学模型在生物序列结构比较中的研究及其应用[J]. 安阳师范学院学报 2017(02)
    • [2].基于正则表达式的生物序列检索方法[J]. 莆田学院学报 2009(05)
    • [3].基于密度感知模式的生物序列分类算法[J]. 计算机应用 2018(02)
    • [4].生物序列搜索算法hmmsearch的加速技术[J]. 计算机工程 2010(20)
    • [5].生物序列数据挖掘技术的若干研究论述[J]. 山东工业技术 2016(15)
    • [6].边际核函数在生物序列分类中的应用[J]. 计算机应用与软件 2008(05)
    • [7].在當前審查實踐下獲得生物序列的合理專利保護範圍之探討[J]. 中国专利与商标 2015(03)
    • [8].生物软件在序列分析过程中的运用[J]. 生物信息学 2010(04)
    • [9].生物序列分析(生物信息学数据分析丛书)[J]. 遗传 2010(10)
    • [10].生物序列数据挖掘技术研究[J]. 合肥工业大学学报(自然科学版) 2012(09)
    • [11].通式肽单一性审查研究初探[J]. 中国发明与专利 2015(12)
    • [12].用网络方法识别生物序列motif[J]. 生物信息学 2008(04)
    • [13].基于非支配排序遗传算法求解启动子识别问题[J]. 基因组学与应用生物学 2014(06)
    • [14].科学出版社生命科学分社新书推介 2010-08[J]. 中国生物化学与分子生物学报 2010(10)
    • [15].基于位置信息熵的局部敏感哈希聚类方法[J]. 计算机应用与软件 2018(03)
    • [16].一种新的生物序列模式挖掘算法[J]. 电脑知识与技术 2010(19)
    • [17].基于知识库的基因组数据整合分析[J]. 生物信息学 2011(04)
    • [18].基于打分矩阵的生物序列频繁模式挖掘[J]. 模式识别与人工智能 2016(10)
    • [19].生物序列数据K-mer频次统计问题的算法[J]. 计算机系统应用 2014(04)
    • [20].WIPO的ST.26与ST.25标准比较研究[J]. 中国发明与专利 2020(08)
    • [21].GPGPU加速生物序列比对研究进展[J]. 生物信息学 2013(02)
    • [22].基于相邻频繁模式段的闭合序列模式挖掘算法[J]. 计算机工程与应用 2008(11)
    • [23].基于OpenFlow网络数据处理模型的研究[J]. 计算机科学与探索 2015(11)
    • [24].生物序列的聚类分析[J]. 生物信息学 2009(01)
    • [25].使用GPU加速BLAST算法初探[J]. 计算机工程与科学 2009(11)
    • [26].融合信息量差异和聚类精炼的多Motif识别[J]. 小型微型计算机系统 2017(09)
    • [27].BioIndex:一种生物序列相似性查询的高效索引[J]. 计算机应用与软件 2009(10)
    • [28].GPU OpenFlow海量数据网络处理模型——GOMDI[J]. 计算机应用 2014(08)
    • [29].基于知识表达系统的序列比对研究[J]. 四川理工学院学报(自然科学版) 2008(06)
    • [30].生物序列模体发现的最优化模型[J]. 成都大学学报(自然科学版) 2008(01)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    生物序列的几何刻画及应用
    下载Doc文档

    猜你喜欢