论文摘要
利用混合线性模型进行遗传数据分析对于统计学家和遗传学家来说都是一种挑战,因为无论是线性、二次性还是似然估计方法都会在很大程度上受到自变量或依变量中的异常数值的干扰。要了解异常值对分析结果的影响,唯一的方式是通过反复地数据质量鉴定和模型优化。基于上述考虑,本研究借助于MINQUE(最小二次范数无偏估计)和AUP(调整的无偏预测)方法(表示为:方法Ⅰ),提出了利用混合线性模型进行遗传数据分析的异常值检测方法,并将该方法与基于EM算法和BLUP(最佳线性无偏预测)的方法(表示为:方法Ⅱ)进行比较,然后通过两个实例分析来验证方法。本研究首先利用一个常用的遗传模型(包括品种、年份和地点)来演示该方法,并引入一组统计量来评价异常值对分析结果的影响程度,如:Cook距离(CD(β)),Andrews-Pregibon统计量(AP),Cook-Weisberg统计量(CW)和方差比例(VR)是用来评价某个数据点对混合线性模型种固定效应的影响;而Cook距离(CD(e))是用来评价某个数据点对随机效应的影响。采用C++编程语言编写了计算机模拟程序,通过蒙特卡罗模拟方法产生模拟数据,随机设定若干异常值,并运用本研究提出的方法来检测异常值,来检验方法的有效性和可靠性。结果表明,利用上述的异常值评价指标,方法Ⅰ和方法Ⅱ都能够检测到模拟数据中人为设定的异常值,两者具有相似的异常值检测能力。此外,本研究还运用方法Ⅰ和方法Ⅱ对不含有异常值的数据进行分析,来比较两种方法的假阳性率。结果表明,与方法Ⅱ相比,利用方法Ⅰ所得到的异常值评价指标更加平稳,因此,方法Ⅰ在异常值检测方面更加稳健。另外,在模拟数据中,针对特定品种、年份和地点的组合设定异常值。大多数情况下,方法Ⅰ和方法Ⅱ都能检测到这类异常值,对于有些例子,方法Ⅰ能够具有更强的检测能力,而对于另一下例子,方法Ⅱ则表现的更好。主要分析结果可总结如下:1)本研究提出的方法可以较好地检测出混合线性模型中的异常表型值。如果模型中只存在少量离散的异常观察值,无论用方法Ⅰ还是用方法Ⅱ,都能检测到这些异常值。但如果一个品种在同一地点、同一年份存在多个异常值,则无法检测到这些异常值,反正会将正确的观察值判定为异常值。2)基于上述方法,本研究采用C++编程语言编写了一套计算机程序,用于混合线性模型的遗传数据分析,检测异常观测值,并根据统计检验P值的大小来排列异常值。这套程序也可以提供模型中方差分量的估计值和随机效应的预测值。3)在常用遗传模型的分析结果中,有些值异常值会由于其他异常值的掩盖而无法被检测出来,而有些正常的观察值则会由于其它多个异常值的影响而被误认为是异常值。4)在常用遗传模型的分析实例中,异常值的存在可能会严重影响固定效应的估计和随机效应的预测,而去掉这些异常值之后,则可能在很大程度上改进模型的参数估计。对于QTL定位数据,去除异常值之后,可以检测到额外的QTL,并能改进遗传率的估计。两个实例分析的结果都表明,去除异常值之后,都能改进模型的参数估计,当然,我们并不能武断地认为这些去除异常值完全没有生物学意义。5)另外,我们可以将本项目提出的方法拓展到复杂的遗传模型,如:加显模型,加显-母体效应模型等,来分析异常值对遗传效应以及非遗传效应的影响。另外,我们也可以将该方法应用于基因芯片数据分析,来检测芯片数据采集过程中由于机器校准、数据输入以及编码造成的异常数据。
论文目录
ACKNOWLEDGEMENTABSTRACT摘要CHAPTER 1INTRODUCTION1.1 General Introduction1.2 Objectives of the Study1.3 Overview of the StudyCHAPTER 2REVIEW OF LITERATURE2.1 Mixed Linear Model2.2 Diagnostics Analysis for Influential Observations2.2.1 Diagnostic analysis forlinear models2.2.2 Diagnostic analysis for mixed linear models2.2.3 Case deletion diagnostics for mixed linear models2.3 Residuals and Influence Diagnostics2.4 Masking and Swamping Effects2.5 Motivation in Genetic Data AnalysisCHAPTER 3STATISTICAL METHODS FOR ESTIMATION AND PREDICTION OF MODEL PARAMETERS3.1 Introduction3.2 MINQUE Methods3.3 The EM-algorithm3.4 Prediction of Random Effects3.4.1 Best linear unbiased prediction(BLUP)3.4.2 Linear unbiased prediction(LUP)3.4.3 Adjusted unbiased prediction(AUP)3.5 Residuals and StudentizationCHAPTER 4METHODS FOR INFLUENCE ANALYSIS:SIMULATION4.1 Introduction4.2 Statistical Functions for Influence Analysis4.2.1 Influence on fixed effects4.2.1.1 Analogue of the Cook's Distance4.2.1.2 Analogue of the Variance Ratio4.2.1.3 Analogue of the Andrews-Pregibon Statistic4.2.1.4 Analogue of the Cook-Weisberg Statistic4.2.2 Influence on random effects4.2.2.1 Analogue of the Cook's distance4.3 Criteria for Detection of Outliers4.3.1 Detecting single outlier4.3.2 Detecting multiple outliers4.4 Monte Carlo Simulations4.4.1 General genetic model4.4.2 Generating the phenotype data4.5 Simulation Results4.5.1 Clean data set4.5.2 Single genotype in different location(s)and year(s)4.5.3 Multiple genotypes in different locations and years4.5.4 Special cases for aberrant observations4.6 Discussion4.7 ConclusionsCHAPTER 5INFLUENCE DIAGNOSTIC ANALYSIS:WORKED EXAMPLES5.1 Introduction5.2 Experimental Data of Rice Yield5.2.1 Results of the influence analysis:Rice yield data5.2.2 Case deletion diagnostics for rice yield data5.2.3 Effect of the influential observations and outliers5.2.3.1 Effect on variance components5.2.3.2 Effect on random components5.3 Reduced Model for Rice Yield Data5.3.1 Description of reduced model5.3.2 Results of the influence analysis for reduced model5.4 QTL Mapping of Experimental Data5.4.1 Description of data5.4.2 Methods for QTL mapping analysis5.4.3 Results of the QTL mapping data5.4.4 QTL Mapping Results:Simulation5.5 Discussion5.5.1 Rice yield data analysis5.5.2 QTL mapping data analysis5.6 Importance of the Methods in Biological ResearchCHAPTER 6SUMMARY AND RECOMMENDATIONS6.1 Summary6.2 RecommendationsReferencesCurriculum Vitae
相关论文文献
标签:异常数据值论文; 混合线性模型论文; 模拟论文; 遗传模型论文; 定位论文; 和算法论文;