基因表达调控信息的获取、集成和可视化

基因表达调控信息的获取、集成和可视化

论文题目: 基因表达调控信息的获取、集成和可视化

论文类型: 硕士论文

论文专业: 生物医学工程

作者: 吴骏

导师: 孙啸

关键词: 基因调控信息,数据库,集成,可视化,基因表达

文献来源: 东南大学

发表年度: 2005

论文摘要: 随着基因组研究的深入和生物信息学的发展,对基因调控信息的分析和研究引起人们越来越多的重视。目前基因表达调控是分子生物学研究的一个重点,基因转录水平上的调控是最重要的环节。人类基因组计划的顺利实施和其它模式生物基因组测序工作逐步的进行,为研究人类基因及基因表达打下了坚实的基础。而基因芯片技术的迅速发展,已使大规模检测基因转录水平、研究基因表达时时空规律、分析基因之间的相互作用关系成为现实。我们以建立一个完善、系统的基因调控信息平台为目标,分析了国际生物分子数据库系统的发展状况,研究了像GenBank、Transfac、EPD、SCPD、dbSNP等知名数据库系统的实现机制,对基因调控信息集成数据库系统GRID进行了后续设计、数据获取和融合、系统管理、复杂查询和数据可视化等工作。虽然我们的数据来源于这些知名的生物学数据库,可是我们并不是简单地将数据导入到GRID系统中,我们对这些数据进行了大量的分析和处理工作,并把这些不同来源的数据整合成为一个生物数据系统。GRID数据库系统数据主体是基因调控信息数据,主要包括从DNA到RNA的转录过程的信息以及其他过程中与基因调控相关的所有信息。具体到数据类型,主要是启动子区域数据、转录基因数据、转录因子数据、调控元件数据、保守序列数据、矩阵数据、调控信息数据、单核苷酸多态性数据、下游区域数据。所有类型的数据之间都存在着联系,并且这些联系不是单向、单一的,而是双向、多重的、有机的。并且我们还给出了相应的动态联接将某些本系统尚未涉及的数据联接到一些相关生物学数据库,使用户的视野更加开阔。GRID数据库系统不仅能够容纳各种类型的基因调控信息,还能对不同数据源的数据格式进行兼容,完成多种相关数据库数据源的分析和整合。在这个基础上,我们对数据库进行了后续表的设计并添加了新的数据类型,有机地扩充了数据库系统。总之,GRID是一个不断发展的系统,我们需要不断的对它扩充和丰富。在数据库的开发之余,作为数据库的设计和管理员我们对整个数据库的物理结构进行了有效的管理和优化,完成了不同用户间的权限管理。GRID数据库系统在设计完成后,一项非常重要的工作就是将来自于各种数据源的数据导入到GRID数据库当中,这是一项非常复杂的工作,因为数据导入具有较强的连续性。在数据不断的导入过程中,前一条数据的错误导入或终止可能会对下面所有数据的正确性产生影响,导致后面所有数据的错误,进而影响到相关的GRID连接表,从而导致整个GRID数据库系统数据的错误。因此,如何保证导入数据的正确性和安全性,是我们着重需要解决的问题。出于这一点考虑,我们完成了一种新的安全准确的导入方案。我们在现有数据的基础上,根据生物信息学研究的需要,开发了相关复杂查询的功能。我们还详细分析了单核苷酸多态性数据并完成了相关数据的可视化工作,使用户对数据库所提供的信息有一个直观的理解后再根据自己的需要选择感兴趣的信息进行进一步的查询、下载和分析,并且可以方便的从一种信息数据得到在转录和翻译过程中牵涉到的其他所有的信息数据。在实现中,我们没有盲目采用国外生物信息数据库的可视化方法,而是根据本系统的实际情况,提出并实现了全新的Servlet+Applet可视化方法,大大节省了服务器的资源并且快速安全。将来我们还要在GRID系统的基础上从事更多的基因调控信息分析和数据挖掘等方面的工作。目前GRID数据库系统已经初具规模并进入试运行阶段。总之,GRID数据库系统是一个真正自主开发研制的基因调控信息数据库系统,它不是单纯的国外数据库的镜像,而是一个能够兼容不同数据,可以从不同数据源自动下载和更新数据的集成型数据库系统。它采用了先进的Oracle以及Java的相关技术,具有强大的性能以及广泛的跨平台能力;它友好的界面和良好的设计,能够真正的在数据库的层次上为用户提供不同数据间的关系查询,并且还具备一定的数据可视化和分析的能力。可以说,GRID真正的能够存储基因转录以及翻译的整个调控过程,并且为生物学专业用户提供研究所需的所有材料。

论文目录:

摘要

ABSTRACT

第一章 绪论

1.1 研究背景

1.1.1 基因组研究的发展

1.1.2 基因序列的研究

1.1.3 基因表达与调控

1.2 基因调控信息相关数据库

1.2.1 生物学数据库的特点

1.2.2 基因组相关数据库

1.2.3 转录因子数据库

1.2.4 基因表达数据库

1.3 本课题的目标、任务、成果以及创新

1.3.1 本课题的目标

1.3.2 GRID数据库系统的关键任务

1.3.3 主要成果

1.3.4 本课题意义及创新

第二章 理论基础及相关技术

2.1 关于“集成”

2.2 GRID系统的相关实现技术

2.2.1 WEB数据库理论基础

2.2.2 Servlet技术

2.2.3 Applet技术

2.2.4 TOMCAT/APACHE服务器的介绍及比较

2.2.5 JDBC技术

第三章 系统(GRID)设计、数据融合及系统管理

3.1 GRID数据库系统的设计思想

3.2 GRID系统后续表的设计和相关知识

3.2.1 前期数据的介绍

3.2.2 GRID数据库系统后续表的设计

3.3 GRID数据库系统的数据融合与导入

3.3.1 相关数据的融合

3.3.2 使用SQLLDR导入数据

3.3.3 使用自行开发的Java程序进行数据的导入

3.3.4 导入数据时的注意事项

3.4 GRID数据库系统的管理和维护

3.4.1 授予不同角色用户不同的权限

3.4.2 GRID数据库系统的维护和扩充

第四章 WEB查询功能的完善和复杂查询的实现

4.1 GRID数据库系统WEB服务功能

4.1.1 一般查询功能

4.1.2 SNP相关数据的来源

4.1.3 复杂查询的实现

4.2 WEB服务功能的具体实现

4.2.1 数据库连接的实现

4.2.2 连接相关查询的实现

4.2.3 数据下载功能的实现

第五章 调控信息的可视化

5.1 可视化概述及分析

5.1.1 信息可视化

5.1.2 GRID基因调控信息可视化

5.1.3 GRID数据库系统SNP信息可视化

5.1.4 国际知名网站可视化设计分析

5.1.5 GRID采用的可视化方法

5.2 GRID的SNP信息可视化设计

5.2.1 功能设计

5.2.2 功能实现

第六章 总结与展望

6.1 论文工作总结

6.2 展望

附录一:主体数据字段表

参考文献

文章发表情况

第一作者

参加项目情况

致谢

发布时间: 2007-06-11

参考文献

  • [1].湿地典型植物光谱及其数据库系统研究[D]. 甘迪龙.杭州师范大学2013

相关论文

  • [1].病毒基因组生物信息可视化系统研究[D]. 陆王红.扬州大学2008
  • [2].利用本体论(Ontology)研究脑科学相关基因信息[D]. 陶怡.东南大学2006
  • [3].基因表达数据的集成、分析和可视化[D]. 李石法.东南大学2006
  • [4].基于序列统计特征的水平转移基因搜索[D]. 顾珉.东南大学2006
  • [5].生物医学文本挖掘及其在基因调控信息分析中的应用[D]. 周俊.东南大学2006
  • [6].基于结构数据的转录因子结合位点分析[D]. 汤丽华.东南大学2005
  • [7].基因组序列特征分析[D]. 焦典.东南大学2005
  • [8].基因组调控元件的分析[D]. 韦芬霞.东南大学2005
  • [9].基于改进关联规则和遗传算法的基因表达调控网络构建方法[D]. 袁祚涌.电子科技大学2007
  • [10].基因表达调控网络建立的微分方程模型研究[D]. 郭波涛.第三军医大学2005

标签:;  ;  ;  ;  ;  

基因表达调控信息的获取、集成和可视化
下载Doc文档

猜你喜欢