论文摘要
在过去的几十年里,随着计算机的计算速度和存储能力的提高,人们能够收集、存储和分析在金融市场、医学诊断、生命科学、环境调查等各个领域大量涌现的复杂数据集.这些数据集往往有下面的特征:包含异常值,有观测误差,纵向抽样,维数超高(大“p”,小“n”)等等.为了能够处理各个科学领域出现的复杂数据,一方面我们需要拓展传统的统计方法,另一方面我们更加迫切需要提出全新的统计方法。本论文主要考察两类数据集:混杂了同一个协变量的数据集和含有异常值的数据集。我们对前者做了回归分析的研究,对后者做了判别分析和构造稳健拟似然框架的研究。Kaysen et al.(2003)给出了一个“混杂了同一个协变量的数据”的例子——血液透析病人的纤维蛋白原的数据。在该数据中人们感兴趣的是纤维蛋白原水平和铁传递蛋白水平的回归关系。而这两类蛋白水平都依赖于BMI(body mass indexweight/height2),那么BMI必然会对回归关系造成一定的扭曲。为了刻画回归中的这种扭曲并给出相应的调整方法,Sent(?)rk和M(?)ller(2005)建立了协变调整的线性回归模型(covariate-adjusted linear regression,CALR),同时通过将该模型转化成变系数模型得到了模型中参数的估计。在第二章中,我们给出了另一种直接估计参数的方法:第一步,用设计变量和响应变量对协变量做回归,从而得到扭曲函数的核平滑估计,继而得到关于不可观测的设计变量的估计和不可观测的响应变量的估计;第二步,利用估计的设计变量和响应变量可得到参数的最小二乘估计。我们证明了新的估计方法所得估计的n1/2一致性和渐近正态性。同时我们给出了一个我们的方法具有更小的渐近方差的充分必要条件。与第二章所讨论的数据类型相同,在第三章中,我们建立了协变调整的非线性模型(covariate-adjusted nonlinear regression,CANLR)并考察了该模型的性质。同样地,在该模型中,设计变量和响应变量不能够直接观测到,观测到的是被一些乘积因子混淆后的版本。由于非线性性的存在,Sent(?)rk和M(?)ller(2005)的估计方法不能直接用到CANLR模型的参数估计上。为此,我们沿用第二章中的估计方法可得设计变量和响应变量的估计,进而利用非线性最小二乘得到参数的估计。同样地,我们考察了n1/2一致性和渐近正态性.然而由于渐近方差的结构非常复杂并且含有很多未知待估的项,我们如果用“正态近似”的方法去构造参数的置信域,效率会很低。为了避免估计渐近方差,我们采用经验似然的方法来构造置信域。尽管在构造的经验似然比中有无穷维的讨厌参数的估计(扭曲函数的估计)插入,经验似然比的渐近分布仍然是卡方的。这就保证了用经验似然比建立置信域是可行的。异常值很有可能是一些含有重要信息的数据点,像污染区域之于环境数据,或者不规则情形之于病人的在线监护数据。人们希望统计方法做到既能够充分利用这些异常值信息又不要对异常值过于敏感。对于此类数据,我们在第四章中主要研究了稳健的非参判别分析。首先我们定义了推广的投影深度(extended projection depth,EPD),然后给出了判别准则—未来的观测值关于哪个总体具有最大EPD,则认为它来自那个总体。我们讨论了基于EPD的判别准则的稳健性质及其误判概率的渐近性质。进一步地,当所考察总体的分布是椭球对称时,基于EPD的判别准则渐近等价于最优的Bayes判别准则。在最后一章中,对于离散随机过程我们给出了将拟似然推断的理论框架稳健化的一般的做法。主要是基于投影深度函数对异常的正交基降低权重,从而得到稳健的正交基.在由稳健的正交基构造的估计函数空间中,我们仍然能够找到具有某些最优性质的估计方程。所得估计方程和估计量都有良好的稳健性质,崩溃点值接近于1/2(p+1)。同时,所得估计量仍然保持渐近正态性。我们还讨论了该估计方法所带来的效率的变化。模拟实验和实际数据的应用进一步阐释了上述各种方法。
论文目录
中文部分中文摘要英文摘要第一章 绪论§1.1 两类复杂数据§1.1.1 混杂了同一个协变量的数据§1.1.2 含有异常值点的数据§1.2 协变调整模型§1.2.1 协变调整的线性模型§1.2.2 协变调整的非线性模型§1.3 投影深度函数,判别分析和最优估计方程§1.3.1 投影深度函数§1.3.2 异常值对于判别分析的影响§1.3.3 异常值对于最优估计方程的影响第二章 协变调整的线性模型的另一种估计方法§2.1 引言§2.2 估计方法和渐近结果§2.3 数值模拟的研究§2.4 证明第三章 协变调整的非线性模型§3.1 引言§3.2 点估计及其渐近行为§3.3 基于经验似然的置信域§3.4 模拟实验§3.5 应用§3.6 证明第四章 推广的投影深度及其在判别分析上的应用§4.1 引言§4.2 推广的投影深度和新的判别准则§4.3 基于EPD的判别准则的稳健性质§4.4 基于EPD的判别准则的大样本性质§4.5 数值模拟的结果§4.6 证明第五章 离散随机过程基于统计深度的最优稳健估计方程§5.1 引言§5.2 深度加权的估计方程§5.3 估计方程和估计量的稳健性§5.4 渐近结果§5.5 模拟例子§5.6 证明参考文献致谢攻读博士学位期间完成论文情况作者简介学位论文评阅及答辩情况表英文部分AbbreviationsAbstract摘要Chapter 1 Introduction§1.1 Two types of complex data sets§1.1.1 Data that are confounded by one common covariate§1.1.2 Data including outlying values§1.2 Covariate adjusted regerssion model§1.2.1 Covariate adjusted linear regerssion model§1.2.2 Covariate adjusted nonlinear regerssion model§1.3 Projection data depth functions,discriminant analysis and optimal estimating equations§1.3.1 Projection data depth functions§1.3.2 The impact of outliers on discriminant analysis§1.3.3 The impact of outliers on optimal estimating equationsChapter 2 An alternative estimation for covariate-adjusted linear regression§2.1 Introduction§2.2 Estimation and asymptotic results§2.3 Simulation study§2.4 Selected proofsChapter 3 Covariate-adjusted nonlinear regression§3.1 Introduction§3.2 Point estimation and asymptotic behavior§3.3 Empirical likelihood-based confidence region§3.4 Simulation study§3.5 Application§3.6 ProofsChapter 4 An extended projection data depth and its applications to discrimination§4.1 Introduction§4.2 Extended projection depth and new classifier§4.3 Robust properties of EPD-based classifier§4.4 Large sample properties of EPD-based classifiers§4.5 Results on simulated examples§4.6 ProofsChapter 5 Optimal robust estimation based on statistical depth for discrete stochastic processes§5.1 Introduction§5.2 Depth-weighted Estimating Equation§5.3 Robustness of Equation and Estimation§5.4 Asymptotic Normality of Estimation§5.5 Illustrative examples§5.6 Selected proofsBibliographyAcknowledgementList of Publications during Study for the DoctorateCurriculum Vitae学位论文评阅及答辩情况表
相关论文文献
标签:复杂数据论文; 协变调整的回归模型论文; 稳健判别分析论文; 稳健拟似然论文; 最小二乘论文; 投影深度论文; 核估计论文; 经验似然论文; 置信域论文; 渐近行为论文;