基于集群环境的三种蛋白质GO功能注释方法的实现

基于集群环境的三种蛋白质GO功能注释方法的实现

论文摘要

在获得了海量的实验数据后,生物信息学目前面临的下一项艰巨任务就是尽可能快速地从这些数据中提取有意义的信息,提供给生物学家们思考分析以及进一步探究其表达的生物学含义。解决方法之一就是建立针对海量数据的高性能生物信息自动分析web平台。在以上任务中,预测蛋白质功能是具有重要意义的一步。基因本体(GO)是一套具有动态形式的控制词汇,其结构为有向无环图。基因本体精确定义了蛋白质的功能以及功能间的关系,被广泛应用于蛋白质功能注释研究中。本文通过以下三种方法对蛋白质GO功能进行了预测:(1)基于blast比对程序(blastp、psi-blast)的同源搜索,提取结果中的SwissProt关键词,并将关键词映射到GO;(2)基于InterProScan的蛋白质模体、家族和结构域搜索对蛋白质功能进行预测;(3)基于一款实现了支持向量机的软件GOKey,对蛋白质序列特征和理化特性进行比较分类,并预测蛋白质功能。涉及到的数据库及程序资源包括UniProt、RefSeq、InterPro、Ensembl。现已将Ensembl蛋白质数据库中的Novel蛋白质全部注释,并提供网页查询。为实现Linux集群环境下的自动注释平台,完成了blast程序,InterProScan,GOKey及其比对数据库在Linux集群上的安装与自动更新,并提供了这些工具及计算结果数据库的网页接口。为充分利用集群的并行计算能力,该网页接口实现了对提交任务的划分。经测试表明,集群的并行计算能力能够大大缩短各种注释方法的计算时间,为生物学家提供了更加快速的信息获取方式。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题来源
  • 1.2 研究背景、目的、意义
  • 1.3 研究现状
  • 1.4 本文主要内容
  • 2 基于比对同源搜索的蛋白质GO 功能注释方法在集群环境下的实现
  • 2.1 基于比对同源搜索blast 的蛋白质GO 功能注释方法
  • 2.2 集群环境下BLASTP 安装及计算任务的运行
  • 2.3 BLASTP 的计算结果后处理
  • 2.4 本章小结
  • 3 基于蛋白质模体、家族和结构域搜索的蛋白质GO 功能注释方法在集群环境下的实现
  • 3.1 基于蛋白质模体、家族和结构域搜索的蛋白质GO 功能注释方法
  • 3.2 集群环境下InterPro 的安装以及计算任务的运行
  • 3.3 InterProScan 计算结果的后处理
  • 3.4 本章小结
  • 4 基于蛋白质序列特征和理化特性的蛋白质 GO 功能注释方法在集群环境下的实现
  • 4.1 基于蛋白质序列特征和理化特性的蛋白质GO 功能注释方法
  • 4.2 集群环境下GOKey 的安装与计算任务的运行
  • 4.3 GOKey 计算结果的后处理
  • 4.4 本章小结
  • 5 自动注释平台的构建
  • 5.1 GOKey 的自动版本检测和“无缝”更新部署
  • 5.2 Web 接口
  • 5.3 数据库设计
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 本文主要内容
  • 6.2 展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于序列功能注释的蛋白质相互作用预测方法研究[J]. 安徽农业科学 2015(28)
    • [2].番木瓜果实转录组数据组装及基因功能注释[J]. 分子植物育种 2018(21)
    • [3].罗勒花和叶的转录组数据组装及基因功能注释[J]. 中草药 2017(17)
    • [4].云南金花茶转录组序列分析及功能注释[J]. 经济林研究 2020(03)
    • [5].靖安白茶芽和叶的转录组数据组装及基因功能注释[J]. 现代食品科技 2018(05)
    • [6].杜鹃花叶片转录组测序数据组装及功能注释[J]. 浙江农业学报 2018(07)
    • [7].利用基因组数据挖掘对人类长非编码RNA进行功能注释(英文)[J]. Journal of Zhejiang University-Science B(Biomedicine & Biotechnology) 2019(06)
    • [8].低温胁迫下枇杷幼果转录组的De novo组装和功能注释[J]. 西北农林科技大学学报(自然科学版) 2014(08)
    • [9].小麦基因组学研究进展[J]. 山西农业科学 2018(03)
    • [10].基于高通量测序的青花菜早期发育小孢子转录组分析与基因功能注释[J]. 核农学报 2018(05)
    • [11].改进的系统发育谱算法在蛋白质功能注释中的应用[J]. 生物信息学 2009(01)
    • [12].系统发育谱构建方法研究[J]. 生物信息学 2009(01)
    • [13].白刺花种子转录组分析[J]. 分子植物育种 2017(03)
    • [14].BIG-Annotator:基因组测序数据高效功能注释及其在遗传诊断中的应用[J]. 遗传 2018(11)
    • [15].生物信息学方法在预测蛋白质相互作用中的应用[J]. 中国医学创新 2010(36)
    • [16].基于转录组测序的云南‘火把梨’花青素相关基因分析[J]. 分子植物育种 2019(06)
    • [17].新一代高通量测序Chip-seq数据正规化方法研究[J]. 智能计算机与应用 2014(06)
    • [18].Pseudomonas stutzeri A1501基因组结构及功能注释[J]. 中国农业科技导报 2008(05)
    • [19].杜仲雌雄株转录组测序数据组装及基因功能注释[J]. 山地农业生物学报 2015(01)
    • [20].胎儿宫内发育迟缓孕妇胎盘组织中差异表达基因及相关信号通路分析[J]. 江苏医药 2016(16)
    • [21].基于家蚕中肠RNA-seq数据的新基因发掘及初步分析[J]. 安徽农业科学 2018(24)
    • [22].德国小蠊全基因组中微卫星分布规律[J]. 昆虫学报 2015(10)
    • [23].青钱柳叶片转录组数据组装及基因功能注释[J]. 华中师范大学学报(自然科学版) 2018(06)
    • [24].保护品种云茶1号茶树全长转录组测序分析[J]. 茶叶科学 2018(02)
    • [25].厚壁毛竹六个节气笋芽发育的转录组分析[J]. 江西农业大学学报 2015(03)
    • [26].miR-146b靶标预测及功能分析[J]. 江苏医药 2013(03)
    • [27].基于高通量测序的金钗石斛叶转录组数据分析[J]. 分子植物育种 2018(03)
    • [28].基于中麻黄萌发种子转录组的黄酮类化合物合成途径基因的挖掘[J]. 林业科学研究 2014(06)
    • [29].基于转录组测序在人类全基因组内鉴定与癌症相关的polyadenylation和non-polyadenylation RNA[J]. 中国科学:生命科学 2013(05)
    • [30].表达序列标签(EST)分析方法及在植物抗病研究中的应用[J]. 中国农学通报 2010(08)

    标签:;  ;  ;  ;  

    基于集群环境的三种蛋白质GO功能注释方法的实现
    下载Doc文档

    猜你喜欢