分子遗传变异数据处理平台的构建

分子遗传变异数据处理平台的构建

论文摘要

近年来,单核苷酸多态性(single nucleotide polymorphisms,SNPs)作为人类基因组中最常见的一种遗传变异,成为新一代的遗传标记,在疾病易感基因、药物敏感性、人类进化和群体遗传学的研究中起重要作用。随着大规模、高通量测序和分型技术的诞生和迅速发展,遗传数据的数量、难度和复杂度的不断增加,遗传学家必须借助生物信息学的方法对数据进行分析和处理,才能得到他们感兴趣的信息。在过去的数年里出现了大量的软件包和程序,用以实现遗传统计方法,它们对遗传学研究工作起到了非常关键的作用。这些工具虽然对用户隐藏了复杂的计算过程,但是在操作使用方面存在局限,遗传工作者常常会感到难以驾驭。此外,遗传数据的管理与处理通常是在Linux环境下进行的,由于Linux能提供大量数据的高通量的并行计算,很多分析软件是在Linux操作系统下构建的,但其专业化的操作界面亦不为生物学工作者所熟知。为此,在Linux环境下整合遗传分析工具,构建一个操作简单、界面友好且功能强大的分子遗传变异数据处理的平台,能够更好的处理数据。本平台采用浏览器朋艮务器(B/S)架构,以Apache HTTP服务器为Web服务器,结合MySQL数据库来管理平台数据,采用Perl语言为开发工具,因为它是一种胶水语言,可以无缝整合多种遗传变异数据分析软件包。平台的应用环境是CentOS Linux操作系统,目前本研究已实现平台的大部分功能,能对国际权威数据库HapMap、dbSNP、SeattleSNPs,以及遗传实验室中产生的不同格式的SNPs变异数据进行生物信息学处理,包括:单体型推断、连锁不平衡分析、估计单体型板块、选择标签SNP、疾病一对照设计、传递不平衡检验、HWE检验、中性检验、群体分化、群体结构、建群者效应假设、等位基因年代、祖先重组树图等等,最后将处理结果以表格、文本或图像形式输出。此外,本平台以高性能计算机的Linux操作系统为应用环境,对两组生物学数据进行实验验证,结果表明本平台能很好地辅助生物学者进行复杂疾病易感基因定位和群体遗传方面的一些研究。本平台界面友好,操作简便,容易扩展,为非计算机专业的生物学者提供方便,是分子遗传数据处理和分析的有效工具。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 前言
  • 1.1 研究背景
  • 1.1.1 人类基因组计划
  • 1.1.2 人类单体型图计划
  • 1.2 分子遗传多态性和变异
  • 1.2.1 分子遗传标记物
  • 1.2.2 单核苷酸多态性
  • 1.2.3 人类SNP和变异数据库
  • 1.3 SNP的研究及其意义
  • 第2章 基于生物信息学的分子遗传变异数据的处理
  • 2.1 生物信息学与遗传学
  • 2.2 遗传学中的统计方法
  • 2.3 分子遗传数据处理的工具
  • 2.3.1 分子遗传数据处理的软件包和程序
  • 2.3.2 遗传分析平台
  • 2.3.3 分子遗传数据分析工具所存在的问题
  • 2.4 本研究的目的和内容
  • 第3章 分子遗传变异数据处理平台的设计与实现
  • 3.1 总体设计
  • 3.1.1 基本构架
  • 3.1.2 平台运行环境与开发工具
  • 3.1.3 平台的功能设计
  • 3.2 平台的实现
  • 3.2.1 配置服务器
  • 3.2.2 程序设计
  • 3.2.3 遗传功能的实现
  • 3.2.4 数据格式类型
  • 3.3 平台构建的几个关键技术
  • 3.3.1 B/S结构
  • 3.3.2 CGI动态网页技术
  • 3.3.3 Bio::PopGen模块
  • 第4章 分子遗传变异数据处理平台的应用研究
  • 4.1 应用研究一: CD41/42(-CTTT)β-地中海贫血
  • 4.2 应用研究二: 血红蛋白E变异的连锁不平衡与疟疾抵御选择的关系
  • 第5章 总结和展望
  • 参考文献
  • 论文附件清单
  • 功读硕士期间发表的论著
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    分子遗传变异数据处理平台的构建
    下载Doc文档

    猜你喜欢