论文摘要
本文主要对如何充分利用纵向数据的组内相关性来提高对纵向数据半参模型的估计精度以及高维数据的变量选择问题进行研究。纵向数据是对多个观测主体的响应变量和相应的多个协变量进行重复观测形成的数据。对每个主体的观测数据称为一组数据。纵向数据最主要的特征是组内数据相关而组间数据独立。对纵向数据进行分析的难点就是如何充分利用组内数据的相关性来提高统计推断的精度。在第二章,我们将利用经验似然方法对纵向数据的半参模型的回归参数构造置信域。众所周知,与基于渐近正态的方法或基于Bootstrap的方法相比较,经验似然方法在构造置信域时有很大的优越性。本章的主要贡献是充分利用了纵向数据的组内相关性来提高估计精度。我们的方法是:首先,我们为每个主体的观测数据的误差假设一个半参的协方差结构。然后,我们同时利用观测数据的一阶矩和二阶矩条件来构造估计方程。其中的讨厌参数被profile掉了。由于在估计方程中插入了未知分量的非参估计,我们采用了under-smoothing技术来保证所得到的对数经验似然比统计量渐近收敛于标准卡方分布。我们还做了大量的统计模拟来验证我们提出的方法的优越性。受很多实际应用的激励,近年来人们对高维数据的研究有了很大的进展。一些为传统的低维数据设计的统计方法已经无法适应现代统计学的要求。进行高维数据分析的重点是如何利用数据结构的特征进行降维。如果在高维数据中,有很多的预测变量是冗余的,也就是说这些变量根本不含有响应变量的信息,那么,有效地分辨出哪些预测变量是重要的,哪些是冗余的,可以帮助我们建立一个解释性更强、更有用的模型。在第三章,我们将考虑似然情况下的变量选择问题。Dantzig方法自提出就受到了广泛的关注。Dantzig方法主要适应于参数是高维且稀疏情形的线性模型:Y=Xβ+ε,其中Y是n×1响应变量,X是n×p预测变量的矩阵,β是p维且稀疏的参数向量,ε是n×1的零均值、独立同分布的误差项。Dantzig的原理是:假设ε是正态分布,在将得分函数的取值控制在一定的范围内的同时,找寻那个使参数β的l1,范数达到最小的参数值,此向量即为我们的解。在第三章,我们将Dantzig方法的思想推广到了一般的似然情况。我们的方法是:首先得到未知参数的极大似然估计βmle然后,将得分函数在βmle点Taylor展开,得到得分函数的一个线性近似,然后我们就可以利用Dantzig已有的分析方法讨论它的统计性质了。我们的方法在参数维数随样本容量一起趋于无穷时也表现良好。我们研究了解的存在唯一性,并且得到了解的相合和渐近正态性。为了确保模型选择的相合性,我们提出了基于似然的Adaptive Dantzig方法并得到其Oracle性质。最后,我们做了大量的统计模拟来验证我们所提出的方法的优良特性。在实际应用中,高维问题的参数经常具有某种分组结构,即,每组参数同时为零或同时非零。通常的例子就是多元的ANOVA问题以及非参成分的可加模型。在以上的情况中,进行变量选择等同于对一组变量进行选择而非选择单个的变量。在这类变量选择问题中如何充分利用这种结构是我们要加以考虑的重要问题。在第四章中,考虑到每组中元素的个数可能不同,我们提出了新的Group Dantzig Selector方法。我们得到了估计的非渐近的l2范数的上界。我们还做了大量模拟来研究我们的方法在实际中的表现。
论文目录
相关论文文献
标签:经验似然论文; 纵向数据论文; 组内相关论文; 部分线性模型论文; 高维回归论文; 变量选择论文; 似然论文; 选择法论文;