基因组序列的特征提取和进化树构建方法研究

基因组序列的特征提取和进化树构建方法研究

论文摘要

随着人类基因组计划(HGP)的完成,基因组序列迅猛的增长,吸引了越来越多的研究人员对全基因组的系统发生树的注意。目前越来越多的研究倾向于使用全基因组进行系统发育分析,因为这考虑了所有的生物特征并可作为所有生物的共同指标。从生物的基因组角度研究物种间的进化关系,才能获得更加全面的关于进化的信息。科学界普遍认为全基因组进化树与物种进化树更接近。而研究人员发现对不同基因构建的进化树往往不一致,因为对全基因组作系统发育分析时,物种的进化方式除了直向遗传外,还存在其它进化方式。因此,对基因组序列进行系统发育分析有非常重要的意义。本文主要研究了基因组序列的统计关联特征,基于统计关联特征的基因组序列的相似性分析,并采用一种新的模糊聚类方法对基因组序列构建进化树。首先,本文利用三联体和单联核苷酸的联合概率分布的差异来表示序列之间的差异,提出了一种新的基于统计关联特征(TBC)方法对全基因组序列进行相似性分析。将TBC特征矩阵数据归一化,再利用指数切比雪夫距离法构造模糊相似矩阵,最后用模糊聚类中的传递闭包法来构建进化树。该方法不需要多序列比对,计算简单。通过对四组基因组序列(48个HEV病毒、24种冠状病毒、24种转铁蛋白和20种哺乳动物)进行系统发育分析,实验结果验证了该统计特征的有效性。其次,本文提出了一种新的模糊聚类方法用于全基因组序列的进化树构建。利用上述的TBC统计关联特征构造特征矩阵,运用分裂层次聚类方法构建进化树,在分裂过程中采用模糊K均值算法将数据对象分为两类,分裂过程反复进行,直到类中的对象数目为1为止。通过对四组基因组序列(20种哺乳动物、24种冠状病毒、24种转铁蛋白和48个HEV病毒)进行系统发育分析,实验结果验证了该模糊聚类方法的有效性。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 项目来源
  • 1.2 研究背景和意义
  • 1.3 国内外研究现状与发展趋势
  • 1.4 本课题的主要工作
  • 1.5 论文组织结构
  • 1.6 小结
  • 第2章 系统发育分析概述
  • 2.1 生物信息学
  • 2.1.1 生物信息学的研究背景及意义
  • 2.1.2 生物信息学的研究内容
  • 2.1.3 应用前景与展望
  • 2.2 基因组学
  • 2.2.1 原核基因组
  • 2.2.2 真核基因组
  • 2.2.3 基因组序列分析
  • 2.3 系统发育分析
  • 2.3.1 系统发生树构建方法
  • 2.3.2 系统发生树的可靠性
  • 2.3.3 全基因组系统发育分析
  • 2.4 小结
  • 第3章 基于统计关联特征的特征提取方法
  • 3.1 序列统计特征概述
  • 3.1.1 单词频率
  • 3.1.2 DRA 特征
  • 3.1.3 BBC 特征
  • 3.2 一种新的统计特征—TBC 特征
  • 3.3 基于传递闭包法的进化树构建
  • 3.3.1 数据归一化
  • 3.3.2 模糊相似矩阵
  • 3.3.3 传递闭包法
  • 3.4 算法流程与算法描述
  • 3.5 实验结果与分析
  • 3.5.1 48 种 HEV 病毒基因组构建的进化树
  • 3.5.2 24 种冠状病毒基因组构建的进化树
  • 3.5.3 24 种转铁蛋白基因组构建的进化树
  • 3.5.4 20 种哺乳动物基因组构建的进化树
  • 3.6 小结
  • 第4章 基于模糊聚类的进化树构建方法
  • 4.1 模糊聚类算法简介
  • 4.1.1 直接聚类法
  • 4.1.2 基于等价关系的模糊聚类方法
  • 4.1.3 最大树法
  • 4.1.4 基于划分的模糊聚类方法
  • 4.2 基于改进的模糊 K 均值算法构建进化树
  • 4.2.1 模糊 K 均值
  • 4.2.2 一种新的进化树构建方法
  • 4.3 实验结果与分析
  • 4.3.1 20 种哺乳动物基因组构建的进化树
  • 4.3.2 24 种转铁蛋白基因组构建的进化树
  • 4.3.3 24 种冠状病毒基因组构建的进化树
  • 4.3.4 48 种 HEV 病毒基因组构建的进化树
  • 4.4 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A (攻读硕士期间发表论文和参加的项目)
  • 相关论文文献

    • [1].美国材料基因组战略的进展及我国的对策建议[J]. 全球科技经济瞭望 2020(02)
    • [2].基因组编辑农业动物及其管理的共识[J]. 中国农业科学 2020(09)
    • [3].基因组挖掘在天然产物研究中的应用进展[J]. 化学与生物工程 2017(02)
    • [4].基因组的退化[J]. 高科技与产业化 2017(05)
    • [5].基因组选择研究进展及其在林木中的发展趋势[J]. 北京林业大学学报 2020(11)
    • [6].滩羊毛色的全基因组关联分析[J]. 浙江农业学报 2020(01)
    • [7].大量提取羊草基因组方法的优化[J]. 安徽农业科学 2020(06)
    • [8].基因组“暗物质”摭谈[J]. 生物学教学 2020(04)
    • [9].基因组编辑技术在精准医学中的应用[J]. 遗传 2017(03)
    • [10].基因组编辑育种技术及国内外发展态势分析[J]. 生物产业技术 2016(04)
    • [11].基因组“暗物质”作用正逐渐被揭示[J]. 生物医学工程与临床 2013(06)
    • [12].转录组测序揭示翼盖蕨(Didymochlaena trancatula)的全基因组复制历史[J]. 生物多样性 2019(11)
    • [13].基因组选择在猪杂交育种中的应用[J]. 遗传 2020(02)
    • [14].柚子基因组比较分析以及祖先染色体重构[J]. 河北农业大学学报 2020(01)
    • [15].四种提取方法提取玉米基因组的比较[J]. 农业开发与装备 2017(12)
    • [16].基因组选择一步法理论及应用研究进展[J]. 广东农业科学 2016(09)
    • [17].全基因组关联分析研究现状及展望[J]. 上海畜牧兽医通讯 2017(03)
    • [18].尾分析法在不同规模群体中开展全基因组关联研究[J]. 畜牧兽医学报 2017(07)
    • [19].多元自动化基因组工程[J]. 生物技术通报 2015(06)
    • [20].基因组医学:过去、现在和将来[J]. 世界科学 2011(06)
    • [21].基因组改组技术及其在工业微生物改良中的应用[J]. 食品与发酵工业 2011(07)
    • [22].糖皮质激素的非基因组作用及机制[J]. 当代医学 2010(06)
    • [23].后基因组时代——进展、问题、经验与前景[J]. 生理科学进展 2010(04)
    • [24].基于枯草芽孢杆菌产物应用的基因组精简研究进展[J]. 生命的化学 2020(04)
    • [25].高通量计算在大规模人群队列基因组数据解析应用中的挑战[J]. 数据与计算发展前沿 2020(01)
    • [26].恶性肿瘤或有好转临界点[J]. 世界最新医学信息文摘 2019(09)
    • [27].恶性肿瘤或有好转临界点[J]. 世界最新医学信息文摘 2019(11)
    • [28].基因组3D结构的功能研究[J]. 科学技术创新 2019(30)
    • [29].恶性肿瘤或有好转临界点[J]. 世界最新医学信息文摘 2018(32)
    • [30].遗传发育所在作物基因组单碱基编辑方法研究中取得进展[J]. 蔬菜 2017(03)

    标签:;  ;  ;  ;  ;  

    基因组序列的特征提取和进化树构建方法研究
    下载Doc文档

    猜你喜欢