遗传流行病统计分析软件SAGE的开发与应用

论文摘要

背景与研究目的遗传流行病学(genetic epidemiology)是近年来发展起来的一门边缘热门学科。主要是研究不同人群中影响疾病分布的遗传因素和环境因素，并提出合理预防措施的学科。它的理论基础是群体遗传学和流行病学，主要是应用流行病学群体资料收集和处理的方法，以及分子遗传学的实验手段，借助生物统计学的有关原理和方法来研究和探索遗传因素和环境因素对疾病的单独作用以及他们对疾病的联合作用。随着国际人类基因组测序联合体对人类基因组DNA完成序列的分析，在人类基因组测序过程中随着多态性序列标志越来越被人们所发现，寻找疾病基因的进度日益加快。对多基因疾病的研究已成为当前和今后一段相当长时间内倍受关注的焦点。迄今为止，对符合孟德尔遗传规律的单基因遗传病已经建立了一套行之有效的研究体系并定位克隆了近千个致病基因。但对于多基因疾病由于其复杂的表型性状，这些复杂的性状虽然表现出一定的家族聚集倾向性，但并不完全符合孟德尔遗传规律，所以在其易感基因的定位和遗传分析中仍存在很多问题，并成为近年来医学遗传学和基因研究的难点和热点。而在研究人类遗传相关疾病的研究过程中，利用家系结构和群体调查资料进行连锁分析、关联分析或连锁不平衡分析已成为基因定位的重要方法。但是由于遗传学数据庞大，分析繁琐，结构复杂，用一般的统计学方法及软件往往难以充分利用资料的信息。需要专门的遗传统计软件进行分析，目前遗传流行病学统计分析软件虽然较多，但是其综合分析能力不强。如对于参数连锁分析可供选择的软件有FASTLINK，LINKAGE，VITESSE等，对于非参数连锁分析可供选择的软件有GENEHUNTER，MERLIN，MELINK等。目前国内遗传流行病学研究正处于发展阶段，在研究中大部分使用的是国外的遗传统计软件如LINKAGE，GENEHUNTER等，国内已有的遗传统计软件为DOS系统的PPAP，但使用人的不多。由于我国人口庞大，人口学资料丰富，是一个研究人类遗传信息很好的资源宝库。目前国内的情况是统计学与遗传学没有很好的结合，使得遗传学者在信息收集及资料分析时存在不少问题，如对于具体收集哪方面的资料，样本量大小及使用何种遗传统计方法等。使得资料信息不能得到充分利用，造成信息巨大的浪费，实在是一件令人遗憾的事。由于多基因疾病其表型与基因型非严格一一对应关系，因此在分析资料时，需用到多种分析方法，这也使得目前一些专门用于分析某种遗传分析的软件越来越暴露其应用的局限性，且国外软件一般为英文软件，这使得遗传学者要浪费大量的人力和物力去学习这些软件，因此急需一个功能强大的综合性遗传统计软件。而遗传流行病学统计分析软件包SAGE(Statistical Analysis for Genetic Epidemiology)恰好满足我们的需求。它是一个功能强大，能进行各类遗传统计分析的综合性软件，由美国人类遗传分析资源(Human Genetic Analysis Resource，HGAR)所创编。HGAR成立于美国Cleveland市Case Western ReserveUniversity(CWRU)流行病学和统计系，由美国公共卫生服务部门、NIH国立研究资源中心资助，该软件由著名的统计遗传学家R．C．Elston及其工作小组于1987研发而成的，该软件随着时间一直不断更新版本，由刚开始的1.0版本到目前的5.3.0版本，其功能也在不断增强之中，其在遗传流行病学分析中的地位越来越受到重视。研究方法通过SAGE软件自带的5个example文件作为原始家系数据文件，导入各个功能模块进行详细分析，该SAGE共有1个自定义模块及18个功能模块，共分为18个章节进行分别讲述。其中18个功能模块分别以以下4项内容进行表述：第1章：SAGE概述。给出了SAGE软件的基本功能模块的输入输出文件、运行环境和特点等信息。用户安装此软件时需注意其对系统的要求。第2章：SAGE数据文件的建立、编辑与整理。主要介绍了数据文件的3种建立方式，及项目的导入、导出和重命名等内容。重点是数据文件的建立及导入。第3章：用户自定义功能模块。主要介绍了如何创建基因组数据文件和建立新变量。重点内容是建立新的变量。第4章：SAGE的一般统计分析(PEDINFO)。主要介绍了PEDINFO的功能、原理及如何操作及对结果的解释。重点内容是对结果的解释。以下的14个章节均是从模块的功能、原理、操作过程及主要输出结果等4个方面进行阐述。第5章：非孟德尔遗传统计分析(MARKERINFO)。主要用于检测家系数据中的非孟德尔遗传信息，帮助用户对非一致性数据的检测。前提是对孟德尔遗传定律有所了解。第6章：亲属对的重新分类(RELTEST)。通过基因组多位点扫描数据对原有的亲属对进行重新归类，主要是基于染色体血缘一致(IBD)等位共享原理。重点是对IBD及IBS有所了解，及对结果的解释。第7章：等位基因频率估计(FREQ)。估计已知家系结构的个体等位基因频率及产生标记位点描述文件。产生的位点文件可以用于GENIBD，MLOD及其他SAGE程序。该模块的最主要作用在于输出位点文件及可输出近亲系数。第8章：等位基因关联或者数据性状传递不平衡检验(ASSOC)。主要用于估计家系数据文件中性状与协变量，此协变量可通过标记表型转换而来，估计家庭残差相关系数或者遗传度估计。需要注意的是对数据的两种转化的选择。第9章：家庭相关性分析(FCOR)。主要用于估计家系中所有相关对的多变量相关关系及他们的渐进标准误。重点是对家庭内相关对相关关系的结果的解释。第10章：混合分离分析与复杂分离分析(SEGREG)。主要用于在所提供的家庭相关关系基础上检测和选定分离分析模型。其特性可为连续性，二分类特性或者年龄相关的二分类特性，产生可用于基于模型的连锁分析的外显率文件。重点是对不同特性所适合的模型的选择的设定。第11章：血缘同一等位基因概率产生模块(GENIBD)。此功能模块主要用于通过多种算法协调计算各种家系数据文件中不同相关对来产生单位点和多位点的血缘一致等位基因分布。重点是不同资料需选用不同的模型。第12章：年龄相关发作分析(AGEON)：适用于同时比较受累相关对与非受累相关对的年龄发作相关分布资料，允许通过协变量调整均值，方差或者偏度分布。需要注意的是如何合并资料。第13章：单体型分析(DECIPHER)：主要是用于对于人群中常染色体或者X性染色体的单体型频率的最大似然估计。前提是对单体型有所了解。第14章：基于模型的单位点连锁分析(LODLINK)。主要用于计算基于模型的主要特性与各个位点间的两位点间的LOD值，主要特性可以是任何符合孟德尔传递的标记或者其他特性。重点是对主要特性及从SEGERG程序所产生的外显率文件的命名。第15章：基于模型的多位点连锁分析(MLOD)。主要用于计算基于模型的小家系或者大家系的多位点间的连锁分析。重点是基因组数据文件的产生及认定主要特性。第16章：患病同胞对连锁分析方法(SIBPAL)。可以是单位点或者多位点的共享血缘一致等位基因信息，并且根据多位点基因同时使用二分类变量和连续性变量，同时包括上位交互效应和协变量效应。重点是不同特性需进行相应的设定。第17章：受累同胞对的Lods连锁分析(LODPAL)。程序进行连锁分析是基于受累同胞对的Lods记分值，目前执行一般条件logistic回归模型。需注意对效能的设定。第18章：传递不平衡检验(TDT)。程序中的TDT则是基于传递不平衡的基础模型基础上建立的用于分析前提是已知连锁不平衡的情况下的标记位点与疾病位点的连锁关系，其疾病特性为二分类变量。前提是对TDT的原理的掌握。结果通过此论文，使得遗传学者可以充分利用其遗传资料进行遗传统计分析，节省人力和物力，学习该软件可以指导遗传学者收集遗传资料，尽可能的利用遗传资料，从而加快遗传流行病学的发展。

论文目录

摘要

ABSTRACT

第1章 SAGE概述

1.1 功能模块

1.2 SAGE5.3.0的运行环境

1.3 Windows下的SAGE5.3.0的特点

1.4 Windows下的SAGE5.3.0主要窗口及其功能

1.4.1 调色窗与项目窗

1.4.2 程序输入和输出窗

第2章 SAGE数据文件的建立、编辑与整理

2.1 SAGE项目文件的建立、导入与保存

2.1.1 在SAGE环境下建立新项目文件

2.1.2 项目文件的导入

2.1.3 项目文件的保存

2.2 5个样本数据文件的信息

2.3 常规输入与输出的文件

第3章用户自定义功能模块

3.1 基因组数据文件的创建（Create a Genome Description File）

3.2 建立新变量（Create New Variable）

第4章 SAGE的一般统计分析（PEDINFO）

4.1 功能

4.2 原理

4.3 操作过程

4.4 主要输出结果

第5章非孟德尔遗传统计分析（MARKERINFO）

5.1 功能

5.2 原理

5.3 操作过程

5.4 主要输出结果

第6章亲属对的重新分类（RELTEST）

6.1 功能

6.2 原理

6.3 操作过程

6.4 主要输出结果

第7章等位基因频率估计（FREQ）

7.1 功能

7.2 原理

7.3 操作过程

7.4 结果文件输出

第8章等位基因关联或者数量性状传递不平衡检验（ASSOC）

8.1 功能

8.2 原理

8.3 操作过程

8.4 结果输出文件

第9章家庭相关性分析（FCOR）

9.1 功能

9.2 原理

9.3 操作过程

9.4 结果输出文件

第10章混合分离分析与复杂分离分析（SEGREG）

10.1 功能

10.2 原理

10.3 操作过程

10.4 结果输出文件

第11章血缘同一等位基因概率产生模块（GENIBD）

11.1 功能

11.2 原理

11.3 操作过程

11.4 结果输出文件

第12章年龄相关发作分析（AGEON）

12.1 功能

12.2 原理

12.3 操作过程

12.4 结果输出文件

第13章单体型分析（DECIPHER）

13.1 功能

13.2 原理

13.3 操作过程

13.4 结果输出文件

第14章基于模型的单位点连锁分析（LODLINK）

14.1 功能

14.2 原理

14.3 操作过程

14.4 结果输出文件

第15章基于模型的多位点连锁分析（MLOD）

15.1 功能

15.2 原理

15.3 操作过程

15.4 结果输出文件

第16章患病同胞对连锁分析方法（SIBRAL）

16.1 功能

16.2 原理

16.3 操作过程

16.4 结果输出文件

第17章受累同胞对的Lods连锁分析（LODPAL）

17.1 功能

17.2 原理

17.3 操作过程

17.4 结果输出文件

第18章传递不平衡检验（TDT）

18.1 功能

18.2 原理

18.3 操作过程

18.4 结果输出文件

参考文献

综述

成果

致谢

遗传流行病统计分析软件SAGE的开发与应用

论文摘要

论文目录

相关论文文献

猜你喜欢