全基因组中网络缺失基因和微型转座子的发现及研究

全基因组中网络缺失基因和微型转座子的发现及研究

论文摘要

随着生物技术的发展,人们获得了大量的基因组数据并用以了解基因组的机制。越来越多的基因组被测序,分子生物学已进入了所谓的后基因组时代。现在我们能够直接探索基因组的一些全局特性,例如能够得到任意感兴趣基因在全基因组水平上的分布,并通过比较多种相关基因组来理解生物的各种机能等等。基因通过彼此间和代谢物间的物理和化学作用连接成复杂的网络关系,搞清楚完整的基因—蛋白质—新陈代谢网络的拓扑结构、局部组织形式和动态行为是系统生物学的最终目标。但是,现有的基因网络或者代谢途径(Pathway)还远远没有完善,许多构建的网络中存在着大量的缺失基因或者说“网络漏洞”,许多基因的功能和在网络中的具体位置还没有确定,生物网络中的许多节点和连接关系还有待于确定,这就是网络缺失基因问题。发现这些网络中的缺失基因是系统生物学中一个重要的挑战性工作。另外,具有翻转互补终端序列的微型转座子(简称微型转座子或者MITEs)是基因组中的一种重要的功能基因,它能够通过自身的位置转移、增加拷贝数等行为影响基因组的大小和基因的功能实现。在基因组水平中,发现所有的微型转座子及其分布能够让我们更加深入地了解基因组的功能实现以及进化历史。对于发现缺失基因问题和发现微型转座子问题,本文分别给出了有效的算法,能够快速准确地在全基因组水平下发现所有可能缺失基因和微型转座子。本文的主要的研究内容和创新点如下:·主要研究内容对于发现缺失基因问题,我们利用operon信息,基因相似性信息以及phylogenetic profile信息构造了一个基因组参考图,并利用图论算法和设计了新的信息融合和基因排序方法,在整个基因组水平下发现缺失基因。为了进一步提高方法的精度和效率,我们又利用了regulon信息:首先我们给出了一个寻找motif的有效算法,并利用该算法计算了目标基因组中的所有可能的regulon,然后将该信息运用到基因组参考图中。实验结果表明,该方法非常有效,不但在目标网络中发现了大量的相关缺失基因,进一步揭示了基因网络的结构和功能特性,极大地提高了现有基因网络的精度,而且具有极强的鲁棒性。对于发现微型转座子问题,我们首次给出了一个在基因组范围内寻找和分析微型转座子的算法,并且实现了网络在线服务(MUST系统)http://csbll.bmb.uga.edu/ffzhou/MUST/。在许多原核生物基因组的应用试验中,我们的系统首次发现了大量的具有近期活性的微型转座子,并且该系统还首次发现了微型转座子与operon、微型转座子与相邻基因之间存在着影响关系,这些发现为揭示基因组的动态变化以及基因功能实现奠定了基础。第一章绪论,首先给出了本文中用到的生物学,图论以及计算复杂性理论的基础知识介绍。第二章首次给出了一个利用operon信息,基因相似性信息以及phylogeneticprofile信息来发现网络缺失基因的方法。通过比较基因组大小和进化关系,我们共选择了185个基因组来构造基因组参考图。该参考图以所有的基因为顶点,两个基因之间有边存在当且仅当它们在同一个operon中,或者它们是相似基因。对于目标pathway,我们利用其所有的已知基因作为参考基因,再寻找所有到参考基因关系最为紧密的基因来构成候选基因集合,并给出了分层的信息融合和排序的方法来确定最终的基因排序。我们测试了KEGG数据库中E.coli的所有121个pathway。结果显示如果目标pathway中已知基因的个数大于5个,该方法的正预测值(PPV)可以达到60%,并且随着基因个数的增加,可以达到90%,这一预测精度远远大于现有的相关算法,而且参数分析显示该方法具有高度的鲁棒性。同时许多预测的结果已经被近期更新的KEGG数据库的结果证实是正确的。实验结果还发现许多pathway可能在更高的结构层次上具有功能一致性,这进一步深化了pathway的结构和功能特性研究。第三章,给出了一个寻找motif的有效算法,该算法提出了序列邻集、概率打分矩阵等新的概念,并利用递归的计算策略来去除噪音。在许多实际的生物序列的测试中,该算法能够比相关的算法更有效的发现真正的motif。第四章,为了进一步提高发现缺失基因方法的精度,我们又引入了regulon信息。我们首先利用第三章中发现motif的算法描述了目标基因组中所有的regulon结构,然后将此信息融合到第二章中的基因组参考图中。试验显示,regulon信息进一步提高了寻找缺失基因算法的精度,对于所有基因个数大于20的pathway,平均的PPV率进一步提高了约2%。第五章首次给出了一个全基因组水平下发现所有可能微型转座子的算法,并且实现了在线服务(MUST系统)http://csbll.bmb.uga.edu/ffzhou/MUST/。该算法可以按照微型转座子的结构和序列相似性进行分类,同时输出许多相关统计和进化信息。应用MUST系统,我们成功地在Anabaena variabilis ATCC 29413验证了已经被深入研究的微型转座子族Nezha,同时还发现了新的具有近期活性的微型转座子。另外,我们首次在Haloquadratum walsbyi DSM 16790中发现了多个微型转座子族,这些微型转座子族均具有保守的终端结构和高度的序列相似性,并且发现了近期活性的进化痕迹。Haloquadratum walsbyi DSM 16790是一种极端耐盐的细菌。这是首次在此极端细菌中发现微型转座子,这些大量微型转座子族的存在进一步揭示了微型转座子可能参与到极其重要的基因组功能活动中,并且这种活动甚至在极端环境下生存的物种中依然比较活跃。第六章首次在Leptospira中发现了微型转座子Yuanxiao,该微型转座子大量存在于Leptospira的四个近缘物种中。Leptospira是一种病原体,可以导致一种称为钩端螺旋体病的人畜传染病。我们研究发现微型转座子Yuanxiao与转座基因ISLin1之间存在着进化关系,说明微型转座子可能是通过删除转座基因中的编码蛋白区域而进化得到的。研究表明该微型转座子还可能参与到相邻基因的调控过程中,这为研究微型转座子的生成,扩增以及转移机制提供了很好的研究基础。同时,也在基因层面上为解释该治病体的基因表达及功能变化提供了新的思路。第七章首次在Geobacter uraniireducens Rf4中发现了具有近期活性的微型转座子Chunjie,首次观察到Chunjie能够插入到operon结构中,并且没有破坏operon的结构。这进一步揭示了微型转座子的转移特性,并首次揭示了微型转座子对operon结构的进化影响关系。最后一章总结全文。·本文的创新点创新点1.首次利用三种信息给出了在全基因组水平下发现网络缺失基因的方法,利用多基因组的比较在最大程度上发现目标网络中的缺失基因。方法具有高精度和高鲁棒性,极大地提高了目前相关方法的精度和结果。对于E.coli的121个目标pathway,该方法发现了大量的缺失基因,同时还在pathway内部和pathway之间发现了新的结构连接,为进一步研究基因网络的功能和结构特性奠定了基础。创新点1列于第二章中。创新点2.提出了一个新的寻找转录因子motif的有效算法,并用之计算了目标基因组中所有的regulon结构,并且将regulon结构信息融合到寻找网络缺失基因的方法中,进一步提高了寻找网络缺失基因方法的精度。创新点2列于第三、四章中。创新点3.首次给出了在全基因组水平下寻找和分析微型转座子的方法,并实现了在线服务(MUST系统)。对于给定的基因组,该系统能够发现所有可能的微型转座子并给出许多相关特性的分析。利用该系统,我们首次观察到Haloquadratum walsbyi DSM 16790中存在着大量的微型转座子族。这个现象首次揭示了微型转座子在极端微生物(耐盐)中依然活跃并且发挥着重要的作用。创新点3列于第五章中。创新点4.首次在Leptospira中发现了一个具有近期活性的微型转座子族Yuanxiao。并发现该微型转座子和某些特定的转座基因之间存在着结构和序列相似性,同时还可能在相邻基因的转录调控中发挥作用。Yuanxiao的发现为进一步研究微型转座子的产生、扩增、转移机制提供了样本,同时也为揭示Leptospira的致病机理提供新的思路。创新点4列于第六章中。创新点5.首次在Geobacter uraniireducens Rf4中发现了一个具有近期活性的微型转座子族Chunjie,并且发现Chunjie成功地插入到了一个operon结构中。这是首次发现微型转座子插入到operon结构中而没有破坏operon结构和功能,为研究原核生物基因组变化,特别是operon进化提供了直接的证据。创新点5列于第7章中。

论文目录

  • 中文部分
  • 中文摘要
  • 英文摘要
  • 常用词汇说明
  • 第一章 绪论
  • §1.1 生物学基础知识介绍
  • §1.2 图论基础知识介绍
  • §1.3 算法复杂性理论基础知识介绍
  • §1.4 论文的结构与组织
  • 参考文献
  • 第二章 全基因组中网络缺失基因的发现及研究
  • §2.1 研究进展与背景介绍
  • §2.2 基因组的选择与比较
  • §2.3 Operon预测
  • §2.4 基因组参考图的构造
  • §2.5 Phylogenetic Profile的计算
  • §2.6 信息融合与基因排序
  • §2.7 实验与讨论
  • 参考文献
  • 第三章 Motif发现问题的有效算法
  • §3.1 研究进展与背景介绍
  • §3.2 Motif发现算法
  • §3.2.1 理论分析
  • §3.2.2 算法描述
  • §3.2.3 Motif发现算法的扩展
  • §3.3 实验与讨论
  • 参考文献
  • 第四章 全基因组中发现网络缺失基因方法的改进
  • §4.1 研究进展与背景介绍
  • §4.2 利用Regulon信息进行方法改进与分析
  • §4.3 实验与讨论
  • 参考文献
  • 第五章 全基因组中发现和分析MITEs的综合系统(MUST)
  • §5.1 研究进展与背景介绍
  • §5.2 MITEs发现算法
  • §5.2.1 MITEs发现问题的描述
  • §5.2.2 MITEs发现算法
  • §5.3 MITEs发现算法的应用与实验
  • §5.3.1 实验平台及材料准备
  • §5.3.2 MITEs发现算法在Anabaena Variabilis ATCC29413中的应用
  • §5.3.3 MITEs发现算法在Haloquadratum Walsbyi DSM16790中的应用
  • §5.4 讨论
  • 参考文献
  • 第六章 Leptospira中的近期活性MITEs族
  • §6.1 Leptospira的介绍
  • §6.2 Leptospira中的近期活性MITEs族
  • §6.2.1 Leptospira种族中四个已测序链之间的物种发展关系
  • §6.2.2 Leptospira中ISLinl的比较分析
  • §6.2.3 Yuanxiao的特性分析
  • §6.2.4 Yuanxiao的近期活性
  • §6.3 讨论
  • 参考文献
  • 第七章 Geobacter uraniireducens Rf4中的近期活性MITEs族
  • §7.1 Geobacter uraniireducens Rf4的介绍
  • §7.2 Geobacter uraniireducens Rf4中的近期活性MITEs族
  • §7.2.1 Geobacter uraniireducens Rf4中Operon的两个拷贝的比较
  • §7.2.2 Geobacter uraniireducens Rf4中具有近期活性的MITEs
  • §7.2.3 Chunjie在微牛物基因组中的分布
  • §7.2.4 Geobacter uraniireducens Rf4中Chunjie的近代转换
  • §7.2.5 Chunije在能被折叠成稳定的RNA分子
  • §7.3 讨论
  • 参考文献
  • 第八章 总结与展望
  • 参考文献
  • 附录
  • 附录1.选取的185个基因组以及相应的子链编号
  • 附录2.E.coli的121个Pathway的名称及已确定的基因个数及二级包含关系
  • 附录3.Muzha,Duanwu,Qixi,Chongyang的所有MITEs拷贝的基本信息
  • 附录4.MITEs族Muzha,Chongyang,Duanwu,Qixi的Multiple Sequences Alignment and Neighbor Joining and Minimum Evolution Phylogenetic Tree
  • 附录5.Muzha,Duanwu,Qixi,Chongyang的预测二级结构图形
  • 附录6.Yuanxiao的174个拷贝的详细信息
  • 附录7.Chunjie的38个拷贝的详细信息
  • 作者简介
  • 致谢
  • 学位论文评阅及答辩情况表
  • 英文部分
  • Abstract
  • 中文摘要
  • Chapter 1 Introduction of Basic Knowledge
  • §1.1 Basic Knowledge of Biology
  • §1.2 Basic Knowledge of Graph Theory
  • §1.3 Basic Knowledge of Algorithm and Complexity Theory
  • §1.4 Dissertation Outline and Organization
  • Reference
  • Chapter 2 Genome-wide Discovery and Analysis of Missing Pathway Genes
  • §2.1 Introduction
  • §2.2 Methods and Materials
  • §2.2.1 Genomes Selection and Comparison
  • §2.2.2 Operon Prediction
  • §2.2.3 Construction of Reference Graph
  • §2.2.4 Phylogenetic Profiles Calculation
  • §2.2.5 Information Fusion and Gone Rank
  • §2.3 Experiments and Results
  • §2.3.1 Performance Measure Calculations
  • §2.3.2 More Detailed Result Analysis of Pyruvate Metabolism Pathway
  • §2.4 Discussion and Conclusion
  • Reference
  • Chapter 3 An Effective Algorithm of Motif Finding Problem
  • §3.1 Introduction
  • §3.2 Preliminary
  • §3.3 Algorithm Description
  • §3.4 Extensions of the Algorithm
  • §3.5 Experiments and Results
  • §3.6 Conclusion
  • References
  • Chapter 4 Improved Method by Adding Regulon Information
  • §4.1 Introduction
  • §4.2 Materials and Methods
  • §4.3 Experiments and Results
  • §4.4 Discussion and Conclusion
  • Reference
  • Chapter 5 Miniature Inverted-repeat Transposable Element Uncovering SysTem(MUST)
  • §5.1 Introduction
  • §5.2 MITEs Finding Problem and Algorithm
  • §5.2.1 MITEs Finding Problem Description
  • §5.2.2 Algorithm Description
  • §5.3 Applications and Experiments
  • §5.3.1 MITEs Confirmance and New Finding in Anabaena Variabilis ATCC 29413
  • §5.3.2 MITEs Families in Haloquadratum Walsbyi DSM 16790
  • §5.4 Discussion
  • Reference
  • Chapter 6 Active MITEs Family Yuanxiao in Leptospira
  • §6.1 Introduction of Leptospira
  • §6.2 Active MITEs Family in Leptospira
  • §6.2.1 Phylogenetic Relationship of the Four Strains of Leptospira
  • §6.2.2 Comparative Analysis oflSLinl in the Strain Lai of Leptospira
  • §6.2.3 ISLinl is degenerated
  • §6.2.4 Detailed Features of Yuanxiao
  • §6.2.5 Yuanxiao is a novel MITEs
  • §6.2.6 Recent Activities of Yuanxiao
  • §6.3 Discussion and Conclusion
  • Reference
  • Chapter 7 Active MITEs Family in Geobacter uraniireducens Rf4
  • §7.1 Introduction of Geobacter uraniireducens Rf4
  • §7.2 Active MITEs Family in Geobacter uraniireducens Rf4
  • §7.2.1 Comparison of the Two Copies of an Operon in Geobacter uraniireducens Rf4
  • §7.2.2 A Recently Active MITEs in Geobacter uraniireducens Rf4
  • §7.2.3 Distribution of Chunjie in Microbial Genomes
  • §7.2.4 Recent Transpositions of Chunjie in Geobacter uraniireducens Rf4
  • §7.2.5 Recent Burst of Chunjie in Geobacter uraniireducens Rf4
  • §7.2.6 Chunjie could fold into very stable RNA molecule
  • §7.3 Discussion and Conclusion
  • Reference
  • Chapter 8 Conclusion and Further Research
  • Reference
  • Supplement
  • Supplement1.The 185 Genomes Name and Strain Names
  • Supplement2.The 121 Pathways Summarized Information
  • Supplement3.All MITEs Copies Basic Information of Muzha,Duanwu,Qixi,Chongyang
  • Supplement4.Alignment and Neighbor Joining and Minimum Evolution Phylogenetic Tree of Each MITEs Family:Muzha,Duanwu,Qixi,Chongyang
  • Supplement5.Predicted Second Structure of Muzha,Duanwu,Qixi,Chongyang
  • Supplement6.All 174 Copies Basic Information of Yuanxiao
  • Supplement7.All 38 Copies Basic Information of Chunjie
  • Curriculum Vitae
  • Acknowledgements
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    全基因组中网络缺失基因和微型转座子的发现及研究
    下载Doc文档

    猜你喜欢