基于网格的生物信息学计算流程系统的研究

基于网格的生物信息学计算流程系统的研究

论文题目: 基于网格的生物信息学计算流程系统的研究

论文类型: 博士论文

论文专业: 生物学

作者: 乔立安

导师: 赵南明

关键词: 生物信息学,网格,计算流程,工作流,任务描述

文献来源: 清华大学

发表年度: 2005

论文摘要: 跨平台、分散的异质资源的整合是当前生物信息学领域的主要研究热点之一。本论文提出并建立了一个生物信息学网格应用系统——BOD(Bioinformatics On-Demand)。该系统利用网格计算技术,通过网络平台建立了一个虚拟的工作环境,可帮助研究者实现可定制的综合性的生物信息学计算工作。用户可以在自己的办公室里通过BOD 系统所提供的终端浏览器界面来定制和提交完整的生物信息学查询和计算请求,例如:从DNA 序列拼接,到基因预测,最后到蛋白质折叠单元预测。BOD 网络入口模块将用户的计算请求解析为若干个顺序完成的步骤任务,每个步骤任务可由多个计算任务组成,这些计算任务可以同时独立地进行计算。BOD 任务调度模块受理每一个计算任务,检查计算节点的资源状况,根据计算任务的属性和可用节点资源状况按照一定的比例将其分割为多个子计算任务,并且将这些计算任务或子计算任务按比例分配到与BOD 入口服务器相关联的计算节点上。计算节点也可以按照类似的机制将分配给它的子计算任务进一步分割和分配到它的子节点上去。每个节点都在网格技术的框架下与其父节点或子节点进行通讯。在每个计算节点独立完成分配给它的子计算任务以后,BOD 入口服务器接收并且汇总各子计算任务的计算结果,并以同样的模式进行后续步骤任务的计算,最后将所有结果以特定的方式返回给用户。本论文使用一个计算流程模型来描述用户任务,并且将该用户任务的具体内容、运行状态、以及结果都存储在一个关系型数据库中。BOD 还建立了一个通用的XML 规范来描述与具体计算程序相关的计算任务的细节。此外,通过引入工作流管理系统,可以实现对计算流程的开发、管理、调度和监测。BOD 系统开发过程中所建立的核心技术可以被扩展应用到其他学科的科学研究领域。目前BOD 系统能够支持具有多步骤多并行任务的复杂计算流程,用户可以提交一个或多个输入文件,定制并干预计算的具体流程,并以指定方式同时查看多个输出结果。BOD 系统扩展了当前生物信息学软件的计算能力。用户可以通过网址http://e-science.tsinghua.edu.cn/bod/来使用BOD 系统。

论文目录:

摘要

ABSTRACT(英文摘要)

第一章 引言

1.1 生物信息学及其计算软件

1.2 网格的概念

1.3 E-SCIENCE 及其研究发展现状

1.4 E-SCIENCE 在生命科学中的应用研究现状

1.5 本论文的主要研究工作

第二章 BOD 概述

2.1 用户输入文件

2.2 BOD 数据处理流程

2.3 BOD 组织体系

2.4 BOD 工具包

2.4.1 网页程序包

2.4.2 调度程序包

2.4.3 解析器程序包

第三章 计算流程及其调度

3.1 BOD 计算流程模型

3.2 工作流技术基本概念

3.3 工作流管理系统

3.4 工作流管理系统与BOD 系统开发

3.4.1 计算流程建模

3.4.2 计算流程运行控制

3.4.3 人机交互

3.5 BOD 系统的流程管理的开发

3.6 BOD 任务调度机制

3.6.1 集中式调度策略

3.6.2 调度时间策略

3.6.3 用户任务的调度

3.6.4 计算任务的调度

第四章 XML 任务描述机制

4.1 任务描述机制需要解决的问题

4.2 XML 任务描述文件

4.3 XML 任务描述文件中的指令和描述项

4.3.1 处理针对计算项的计算指令和流程

4.3.2 处理计算任务、子计算任务和计算项任务之间的输入和输出文件

4.3.3 处理前后步骤任务之间的输入和输出文件

4.4 XML 任务描述文件中的宏变量

第五章 其他重要功能模块

5.1 BOD 网页入口

5.2 中心数据库

5.3 通讯管理器

5.4 计算节点的任务处理

5.5 任务状态浏览器

5.6 BOD 系统模块总览

第六章 BOD 系统开发及其应用实例

6.1 BOD 系统的开发

6.2 一个基因组研究计算流程的实现

6.2.1 计算流程简介和软件的选取

6.2.1.1 序列片断的拼接

6.2.1.2 基因区域的预测

6.2.1.3 基因功能的预测

6.2.2 计算流程模型的构建

6.2.3 计算实例一:大规模蛋白质的折叠单元预测计算工作

6.2.4 计算实例二:SARS 冠状病毒的生物信息学分析

6.3 讨论

结论

参考文献

致谢及声明

个人简历、在学期间的研究成果及发表的学术论文

发布时间: 2005-11-16

参考文献

  • [1].差异转录组的生物信息学研究体系在小鼠和人类转录组研究中的应用[D]. 胡瀚洋.武汉大学2014
  • [2].基于本地和WEB的生物信息学综合分析体系的建立及部分新基因的初步实验研究[D]. 张成岗.中国人民解放军军事医学科学院2000
  • [3].蛋白残基可溶性预测及基因表达数据分析方法研究[D]. 王娴.中国科学技术大学2007
  • [4].基于Web2.0技术的进化综合分析工具EvoME的研究与实现[D]. 高胜寒.中国科学院北京基因组研究所2014
  • [5].基于支持向量机的生物数据分析方法研究[D]. 于晓庆.上海师范大学2012
  • [6].机器学习方法在生物信息学中的应用[D]. 刘太岗.大连理工大学2010
  • [7].面向组学大数据的生物信息学研究[D]. 杨帅.中国人民解放军军事医学科学院2016
  • [8].基因表达及其转录调控机制的计算分析[D]. 石金龙.国防科学技术大学2010
  • [9].基因序列与结构的信息分析及应用算法研究[D]. 向旭宇.湖南大学2010
  • [10].In Silico Analysis of Differential Proteins Critical to Virulence between Mycoplasma Bovis HB0801 and Its Attenuated Strains[D]. MUHAMMAD ASIF RASHEED.华中农业大学2017

相关论文

  • [1].计算智能在生物信息学中的应用研究[D]. 彭司华.浙江大学2004
  • [2].生物信息学中的序列比对算法研究[D]. 唐玉荣.中国农业大学2004
  • [3].网格工作流关键技术研究[D]. 张绍华.复旦大学2004
  • [4].蛋白质二硫键结构特征与序列关系的生物信息学研究[D]. 宋江宁.江南大学2005
  • [5].基于本地和WEB的生物信息学综合分析体系的建立及部分新基因的初步实验研究[D]. 张成岗.中国人民解放军军事医学科学院2000
  • [6].基于结构生物信息学的蛋白质设计[D]. 蔡晓辉.中国科学院研究生院(上海生命科学研究院)2006
  • [7].生物信息学中的多序列比对与模体识别问题研究[D]. 刘立芳.西安电子科技大学2006
  • [8].生物信息学和生物信号识别领域的机器学习算法研究[D]. 王岩.吉林大学2007

标签:;  ;  ;  ;  ;  

基于网格的生物信息学计算流程系统的研究
下载Doc文档

猜你喜欢