个人基因组数据管理研究

个人基因组数据管理研究

论文摘要

随着新一代测序技术的发展和千人基因组计划的进行,越来越多的个人基因组序列已经被检测出来,个人基因组的数据也在飞速增长,数据量非常庞大。如何完成对个人基因组数据的收集、存储、分析、管理和发布成为重要课题。本文细致地分析了个人基因组数据以及数据之间的关系,建立了一个统一的数据模型来描述个人基因组数据。由于各个实验室产生的个人基因组数据都有着自己的格式,针对个人基因组数据之间的异构问题,我们以XML格式来表达个人基因组的一些注释数据,解决了个人基因组数据的传输、发布以及整合的大部分问题。本文参考了BioSeg序列模型建立了一个个人基因组序列模型来存储个人基因组序列数据,将序列数据分为描述部分和多维数组两部分,描述部分表示生物序列注释和其他相关信息,多维数组表示具体序列。该模型提供了实现生物序列数据查询的代数操作,综合其代数操作能够实现一系列的序列查询问题,并讨论了多维数组的存储和管理,为实现新一代的数据库管理系统奠定基础。本文以数据仓库的思想,结合XML技术开发了一个个人基因组数据管理平台。在互联网上下载个人基因组数据,预处理为统一的数据格式。结合关系数据库(RDBMs)和Native XML数据库(NXD)作为后台数据库,存储和管理收集到的异构个人基因组数据。该平台可以完成个人基因组数据的提交、存储、管理、分析和发布。并安装UCSC Genome Browser镜像做为后台服务器,借助UCSC Genome Browser的强大功能,以图示的方式直观的显示出个人基因组的相关信息,在传统的注释系统中增加了个人基因组的SNP、插入删除、结构和拷贝数变异等信息。在此基础上我们还开发了一个Track和Session管理系统来管理浏览个人基因组的Track和Session数据,实现数据共享。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.1.1 新一代测序技术的发展
  • 1.1.2 千人基因组计划
  • 1.2 国内外研究现状
  • 1.3 主要研究内容
  • 1.4 论文组织结构
  • 第2章 个人基因组数据描述模型研究
  • 2.1 概述
  • 2.2 基因组数据分析
  • 2.2.1 数据内容
  • 2.2.2 数据关系
  • 2.3 基因组结构分析
  • 2.3.1 基因结构
  • 2.3.2 基因组结构
  • 2.4 人类基因组变异
  • 2.4.1 基因组结构变异
  • 2.4.2 DNA多态性
  • 2.5 个人基因组研究概况
  • 2.6 个人基因组数据分析
  • 2.7 个人基因组数据描述模型
  • 2.7.1 基本信息
  • 2.7.2 注释信息
  • 2.7.3 序列信息
  • 2.8 本章小结
  • 第3章 个人基因组序列模型研究
  • 3.1 引言
  • 3.2 个人基因组序列模型
  • 3.3 序列查询
  • 3.3.1 查询分类
  • 3.3.2 综合查询实例
  • 3.4 序列模型的分析比较
  • 3.5 多维数据的存储和管理
  • 3.6 本章小结
  • 第4章 个人基因组管理系统研究
  • 4.1 异构数据整合
  • 4.2 个人基因组数据差异分析
  • 4.3 基于XML解决个人基因组数据异构
  • 4.4 个人基因组数据可视化
  • 4.5 注释数据可视化分析
  • 4.5.1 展示内容
  • 4.5.2 展示方式
  • 4.5.3 交互接口
  • 4.6 系统设计
  • 4.6.1 结构设计
  • 4.6.2 设计模式
  • 4.6.3 数据库设计
  • 4.7 系统实现
  • 4.8 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].浅谈云计算在生命科学中基因组数据高效管理的应用[J]. 中国新通信 2020(08)
    • [2].美国国立卫生研究院发布基因组数据共享政策[J]. 科研信息化技术与应用 2014(06)
    • [3].云存储基因组数据的可行性研究[J]. 数码世界 2019(03)
    • [4].面向基因组数据分析的大数据编程框架[J]. 科技经济导刊 2018(25)
    • [5].全基因组数据分析方法[J]. 计算机产品与流通 2019(09)
    • [6].利用基因组数据挖掘对人类长非编码RNA进行功能注释(英文)[J]. Journal of Zhejiang University-Science B(Biomedicine & Biotechnology) 2019(06)
    • [7].基因组时代线粒体基因组拼装策略及软件应用现状[J]. 遗传 2019(11)
    • [8].脑筋反应快慢与基因有关[J]. 发明与创新(大科技) 2015(06)
    • [9].随机生存森林在高维基因组数据生存分析中的应用[J]. 中国卫生统计 2013(06)
    • [10].基于文本挖掘的高通量癌症基因组数据注释[J]. 中华医学图书情报杂志 2016(12)
    • [11].利用Hadoop/HBase的药物基因组数据云存储实践研究[J]. 现代图书情报技术 2015(05)
    • [12].狗可能有两个起源地[J]. 江西饲料 2016(04)
    • [13].科技短波[J]. 新农村 2019(04)
    • [14].科学家筛选出远古北京人基因组[J]. 科学大观园 2017(21)
    • [15].系统发育基因组学研究进展[J]. 遗传 2014(07)

    标签:;  ;  ;  

    个人基因组数据管理研究
    下载Doc文档

    猜你喜欢