复杂性状遗传分析方法研究及其软件开发

论文摘要

阐明复杂性状的遗传机理是动植物遗传改良以及人类复杂疾病致病机理研究的重要基础。复杂性状遗传研究的本质是定位控制复杂性状遗传的QTL（数量性状基因座）,检测QTL之间相互作用（上位性）并检测QTL以及上位性在不同环境条件下的效应差异,进而鉴别相应的候选基因及其调控网络。基于混合线性模型方法,本研究提出了适用于各种试验群体的全QTL模型和二步法的定位策略,将复杂性状的多基因遗传体系剖解为QTL的主效应,成对QTL位点的上位性效应,以及它们与环境因子的互作效应;并通过计算机模拟,以及对水稻各种性状的实例分析,验证了模型和定位策略的有效性和可靠性。在此基础上,首次提出了整合宿主和病原菌遗传信息的QTL定位模型,能同时检测宿主和病原菌基因组上控制抗病性和致病性的QTL以及宿主和病原菌之间的QTL互作。此外,本研究还将上述方法应用于基于DArT标记技术的QTL分析,并提出了利用QTL定位得到的遗传信息预测最优基因型的方法。另外,结合基因芯片表达数据和分子标记基因型数据,还提出了eQTL定位的方法。最后,基于上述模型和方法,开发了两套界面友好的计算机软件。本研究的主要研究内容和结论如下:1)对于重组自交系（RI）和双单倍体（DH）群体,本研究提出了一个全QTL模型,包括了多个QTL的加性效应,QTL间的互作效应（加×加上位性效应）、以及它们与环境的互作效应,用于探究复杂性状在多环境条件下的多基因遗传体系。并进一步提出了一个新的定位策略,包括分子标记区间分析、分子标记区间的互作分析以及基因组扫描,用于定位遗传群体中的多QTL位点以及QTL之间的相互作用。另外,本研究利用基于Henderson方法Ⅲ的F统计量做假设检验,采用Permutation方法来控制基因组水平的假阳性率,并运用基于Gibbs采样的贝叶斯方法来估算全QTL模型中的各种遗传参数。此外,本研究通过蒙特卡洛模拟来检验该方法的可靠性和有效性,并用两组真实数据（一组是小鼠BXD群体的嗅球重量数据,另一组是水稻的产量数据）来验证方法。2)对于F2和RIX（重组自交系随机交配,或称为IF2）群体,本研究将上述的全QTL模型拓展到包括QTL的加性和显性效应,加×加、加×显、显×加和显×显上位性效应,以及它们与环境的互作效应。通过计算机模拟研究不同RIX设计检测QTL和上位性的功效和假发现率,并通过实例分析（水稻产量和小鼠脑重）来验证方法的有效性。结果表明大部分的QTL位点都表现出一因多效性,而QTL之间的互作则往往对于不同的性状而表现不同。对于不同的性状,环境变异占表现型变异的比例有很大的差异。3)基于芯片的高通量基因型检测方法的发展,如DArT（多态芯片技术）和SNP（单核苷酸多态）,为大规模增加遗传定位群体提供了重要机遇。本研究提出了一种基于DArT基因型检测系统的QTL定位策略。利用一个DH群体构建了SSR标记（简单重复序列）的低密度连锁图谱,并利用该DH群体的一个子群体构建了结合DArT标记和SSR标记的高密度连锁图谱。分别利用低密度连锁图谱和全群体以及高密度连锁图谱和子群体对大麦网斑病进行QTL定位分析,两者都能定位到一对相互作用的主效QTL。结果表明,高密度连锁图谱、小群体以及精确的表现值度量可以提高主效QTL定位的精确度。因此,可以通过DArT分子标记来检测大量子群体的基因型,从而提高QTL定位试验的效率。4)基于上述方法得到的QTL效应信息,本项目把传统的仅包括加性和显性效应的育种值扩展到包括在各个环境下都稳定表现的遗传主效应和在特定环境有特殊表现的环境互作效应,并提出了一个逐步调整基因型的方法,可筛选集优良基因型于一体的最优基因型（最优纯系和最优杂交种）,来预测群体的遗传改良潜力。对水稻单株粒重数据的分析结果表明,预测得到的最优纯系和最优杂交种都比双亲的F1世代有明显的优势,而且这种优势很大程度上是由上位性效应以及QTL与环境互作效应贡献的。5)在基因组对基因组假设前提下,本研究提出了一个同时整合宿主和病原菌遗传信息的遗传模型,用于检测宿主和病原菌基因组上控制宿主抗病性状的QTL位点,以及宿主和病原菌之间的QTL互作。将候选的分子作为背景控制,通过一维基因组扫描方法同时检测宿主和病原菌基因组上的主效QTL位点,然后通过二维基因组扫描方法检测宿主和病原菌基因组内的上位性以及宿主和病原菌基因组间的QTL互作。在检测主效QTL和互作QTL的过程中,都采用Permutation技术来控制试验水平的假阳性率,并通过蒙特卡罗模拟验证模型和方法的有效性和可靠性。模拟结果表明,该方法能较好的估计模型中的各项遗传参数,并有足够的统计功效来检测主效QTL以及QTL间的互作。6)提出了鉴定差异表达基因的方法,该方法适用于包含单处理因素或双处理因素的基因芯片试验,同时也能分析非平衡数据。采用基于Henderson方法Ⅲ的F统计量来检验每个基因在不同处理水平下的表达差异,并通过调整P值的阈值来控制试验水平的假发现率。分析了人类急性白血病的表达谱数据（包含38个临床诊断的白血病人样）,与SAM（significance analysis of microarray）和MAANOVA（microarray analysis of variance）的分析结果相比,对于单处理因素的数据,本研究提出的方法对与MAANOVA方法非常接近,但MAANOVA方法无非直接的处理缺失数据。另外,还分析了2个小鼠纯系6个脑区域（双处理因素）的表达谱数据,与比前人的分析结果相比,本研究提出的方法能够检测到更多的脑区域特异性表达模式。7)将基因芯片所获得的基因表达值作为一种特殊类型的复杂“性状”,本研究发展了一种定位eQTL和eEpistasis（控制基因表达的上位性）的新方法。该方法将事先筛选到的分子标记作为背景控制,通过一维基因组扫描检测主效eQTL,然后再进行基因组扫描,检测主效eQTL与基因组上其他任意位点的上位性互作,并通过调整P值的阈值控制上述两个检测过程的假发现率。此外,分析了一组由C57BL/6J和DBA/2J组合衍生的重组自交系数据来验证该方法。8)最后,本项目开发了两套计算机软件,QTLNetwork和QTModel,用于数据分析。QTLNetwork软件用于定位和图示化多环境下的复杂性状多基因遗传体系。该软件目前适用于F2、BC（回交一代）、RI、RIX（或称为IF2）以及BCnFn（多次回交和自交）等试验群体。QTModel软件分为三个模块:mixed、array和diallel。其中,mixed模块用于常规的包含随机因素的试验设计,如:随机区组设计、析因设计、多因素析因设计、巣式设计和相交巣式设计等;array模块用于分析包含单处理因素或双处理因素的基因芯片数据,检测差异表达基因;而diallel模块则用于经典的双列杂交设计。

论文目录

Acknowledgements

Abstract

摘要

Chapter 1 Introduction

Chapter 2 Literature Review and Background Knowledge

2.1 The Challenges on Statistical Methods for Complex Trait Analysis

2.1.1 The applications of mixed linear model approaches in quantitative genetics and their drawbacks in large-scale data analysis

2.1.2 Linkage analysis of quantitative trait loci（QTLs）and its challenges in post-genomics era

2.1.3 Statistical issues in analysis of expression traits

2.2 Commonly Used Approaches for Parameter Estimation and Statistical Inference of Mixed Linear Models

2.2.1 Estimation of variance components and significance tests

2.2.2 Analysis of fixed and random effects

2.3 HAB（Henderson and Bayesian）Method for Analysis of Mixed Linear Models

2.3.1 Test significant of multiple effects by Henderson method Ⅲ

2.3.2 Bayesian analysis of mixed linear model via Gibbs sampling

Chapter 3 Mapping the Genetic Architecture of Complex Traits in Experimental Populations

3.1 Mapping the Genetic Architecture of Complex Traits by Homogeneous Mapping Panel

3.1.1 Introduction

3.1.2 Methods

3.1.3 Results

3.1.4 Discussion

3.2 Mapping Genetic Architecture of Complex Traits by Heterogeneous Mapping Panel

3.2.1 Introduction

3.2.2 Methods

3.2.3 Results

3.2.4 Discussion

3.2.5 Appendix

3.3 Mapping Quantitative Trait Loci Based on Diversity Arrays Technology（DArT）

3.3.1 Introduction

3.3.2 Methods

3.3.3 Results

3.3.4 Discussion

3.4 Predicting Superior Genotypes Based on QTL Effects

3.4.1 Introduction

3.4.2 Methods

3.4.3 Worked example

3.4.4 Discussion

3.4.5 Appendix

Chapter 4 Mapping the Interspecific Genetic Architecture in Host-Parasite Interaction System

4.1 Introduction

4.2 Genetic Models

4.3 Methodology of QTL Mapping

4.3.1 Scanning for QTLs in the host and parasite genomes

4.3.2 Detecting intra- and inter-genomic interactions between QTLs

4.3.3 Threshold determination and model selection

4.4 Monte Carlo Simulations

4.5 Discussion

Chapter 5 Genetic Analysis of Microarray Expression Data

5.1 Identifying Differentially Expressed Genes by Microarray Data with One- or Two-factor Design

5.1.1 Introduction

5.1.2 Methods

5.1.3 Data analysis and results

5.1.4 Discussion

5.2 Identifying QTL and Epistasis that Affect Gene Expression

5.2.1 Introduction

5.2.2 Methods

5.2.3 Results and discussion

Chapter 6 Software Development for Genetic Analysis of Complex Trait

6.1 QTLNetwork Software:Mapping and Visualizing Genetic Architecture of Complex Traits in Experimental Populations

6.1.1 Introduction

6.1.2 Method overview

6.1.3 Brief user instruction

6.1.4 Conclusions

6.2 QTModel Software:Analysis of Quantitative Traits by Mixed Linear Models

6.2.1 Introduction

6.2.2 Method overview

6.2.3 Brief user instruction

6.2.4 Conclusions

References

Publications

复杂性状遗传分析方法研究及其软件开发

论文摘要

论文目录

相关论文文献

猜你喜欢