基于混合线性模型进行遗传数据分析的异常值检测方法

基于混合线性模型进行遗传数据分析的异常值检测方法

论文摘要

利用混合线性模型进行遗传数据分析对于统计学家和遗传学家来说都是一种挑战,因为无论是线性、二次性还是似然估计方法都会在很大程度上受到自变量或依变量中的异常数值的干扰。要了解异常值对分析结果的影响,唯一的方式是通过反复地数据质量鉴定和模型优化。基于上述考虑,本研究借助于MINQUE(最小二次范数无偏估计)和AUP(调整的无偏预测)方法(表示为:方法Ⅰ),提出了利用混合线性模型进行遗传数据分析的异常值检测方法,并将该方法与基于EM算法和BLUP(最佳线性无偏预测)的方法(表示为:方法Ⅱ)进行比较,然后通过两个实例分析来验证方法。本研究首先利用一个常用的遗传模型(包括品种、年份和地点)来演示该方法,并引入一组统计量来评价异常值对分析结果的影响程度,如:Cook距离(CD(β)),Andrews-Pregibon统计量(AP),Cook-Weisberg统计量(CW)和方差比例(VR)是用来评价某个数据点对混合线性模型种固定效应的影响;而Cook距离(CD(e))是用来评价某个数据点对随机效应的影响。采用C++编程语言编写了计算机模拟程序,通过蒙特卡罗模拟方法产生模拟数据,随机设定若干异常值,并运用本研究提出的方法来检测异常值,来检验方法的有效性和可靠性。结果表明,利用上述的异常值评价指标,方法Ⅰ和方法Ⅱ都能够检测到模拟数据中人为设定的异常值,两者具有相似的异常值检测能力。此外,本研究还运用方法Ⅰ和方法Ⅱ对不含有异常值的数据进行分析,来比较两种方法的假阳性率。结果表明,与方法Ⅱ相比,利用方法Ⅰ所得到的异常值评价指标更加平稳,因此,方法Ⅰ在异常值检测方面更加稳健。另外,在模拟数据中,针对特定品种、年份和地点的组合设定异常值。大多数情况下,方法Ⅰ和方法Ⅱ都能检测到这类异常值,对于有些例子,方法Ⅰ能够具有更强的检测能力,而对于另一下例子,方法Ⅱ则表现的更好。主要分析结果可总结如下:1)本研究提出的方法可以较好地检测出混合线性模型中的异常表型值。如果模型中只存在少量离散的异常观察值,无论用方法Ⅰ还是用方法Ⅱ,都能检测到这些异常值。但如果一个品种在同一地点、同一年份存在多个异常值,则无法检测到这些异常值,反正会将正确的观察值判定为异常值。2)基于上述方法,本研究采用C++编程语言编写了一套计算机程序,用于混合线性模型的遗传数据分析,检测异常观测值,并根据统计检验P值的大小来排列异常值。这套程序也可以提供模型中方差分量的估计值和随机效应的预测值。3)在常用遗传模型的分析结果中,有些值异常值会由于其他异常值的掩盖而无法被检测出来,而有些正常的观察值则会由于其它多个异常值的影响而被误认为是异常值。4)在常用遗传模型的分析实例中,异常值的存在可能会严重影响固定效应的估计和随机效应的预测,而去掉这些异常值之后,则可能在很大程度上改进模型的参数估计。对于QTL定位数据,去除异常值之后,可以检测到额外的QTL,并能改进遗传率的估计。两个实例分析的结果都表明,去除异常值之后,都能改进模型的参数估计,当然,我们并不能武断地认为这些去除异常值完全没有生物学意义。5)另外,我们可以将本项目提出的方法拓展到复杂的遗传模型,如:加显模型,加显-母体效应模型等,来分析异常值对遗传效应以及非遗传效应的影响。另外,我们也可以将该方法应用于基因芯片数据分析,来检测芯片数据采集过程中由于机器校准、数据输入以及编码造成的异常数据。

论文目录

  • ACKNOWLEDGEMENT
  • ABSTRACT
  • 摘要
  • CHAPTER 1
  • INTRODUCTION
  • 1.1 General Introduction
  • 1.2 Objectives of the Study
  • 1.3 Overview of the Study
  • CHAPTER 2
  • REVIEW OF LITERATURE
  • 2.1 Mixed Linear Model
  • 2.2 Diagnostics Analysis for Influential Observations
  • 2.2.1 Diagnostic analysis forlinear models
  • 2.2.2 Diagnostic analysis for mixed linear models
  • 2.2.3 Case deletion diagnostics for mixed linear models
  • 2.3 Residuals and Influence Diagnostics
  • 2.4 Masking and Swamping Effects
  • 2.5 Motivation in Genetic Data Analysis
  • CHAPTER 3
  • STATISTICAL METHODS FOR ESTIMATION AND PREDICTION OF MODEL PARAMETERS
  • 3.1 Introduction
  • 3.2 MINQUE Methods
  • 3.3 The EM-algorithm
  • 3.4 Prediction of Random Effects
  • 3.4.1 Best linear unbiased prediction(BLUP)
  • 3.4.2 Linear unbiased prediction(LUP)
  • 3.4.3 Adjusted unbiased prediction(AUP)
  • 3.5 Residuals and Studentization
  • CHAPTER 4
  • METHODS FOR INFLUENCE ANALYSIS:SIMULATION
  • 4.1 Introduction
  • 4.2 Statistical Functions for Influence Analysis
  • 4.2.1 Influence on fixed effects
  • 4.2.1.1 Analogue of the Cook's Distance
  • 4.2.1.2 Analogue of the Variance Ratio
  • 4.2.1.3 Analogue of the Andrews-Pregibon Statistic
  • 4.2.1.4 Analogue of the Cook-Weisberg Statistic
  • 4.2.2 Influence on random effects
  • 4.2.2.1 Analogue of the Cook's distance
  • 4.3 Criteria for Detection of Outliers
  • 4.3.1 Detecting single outlier
  • 4.3.2 Detecting multiple outliers
  • 4.4 Monte Carlo Simulations
  • 4.4.1 General genetic model
  • 4.4.2 Generating the phenotype data
  • 4.5 Simulation Results
  • 4.5.1 Clean data set
  • 4.5.2 Single genotype in different location(s)and year(s)
  • 4.5.3 Multiple genotypes in different locations and years
  • 4.5.4 Special cases for aberrant observations
  • 4.6 Discussion
  • 4.7 Conclusions
  • CHAPTER 5
  • INFLUENCE DIAGNOSTIC ANALYSIS:WORKED EXAMPLES
  • 5.1 Introduction
  • 5.2 Experimental Data of Rice Yield
  • 5.2.1 Results of the influence analysis:Rice yield data
  • 5.2.2 Case deletion diagnostics for rice yield data
  • 5.2.3 Effect of the influential observations and outliers
  • 5.2.3.1 Effect on variance components
  • 5.2.3.2 Effect on random components
  • 5.3 Reduced Model for Rice Yield Data
  • 5.3.1 Description of reduced model
  • 5.3.2 Results of the influence analysis for reduced model
  • 5.4 QTL Mapping of Experimental Data
  • 5.4.1 Description of data
  • 5.4.2 Methods for QTL mapping analysis
  • 5.4.3 Results of the QTL mapping data
  • 5.4.4 QTL Mapping Results:Simulation
  • 5.5 Discussion
  • 5.5.1 Rice yield data analysis
  • 5.5.2 QTL mapping data analysis
  • 5.6 Importance of the Methods in Biological Research
  • CHAPTER 6
  • SUMMARY AND RECOMMENDATIONS
  • 6.1 Summary
  • 6.2 Recommendations
  • References
  • Curriculum Vitae
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于混合线性模型进行遗传数据分析的异常值检测方法
    下载Doc文档

    猜你喜欢