论文摘要
变量选择是统计建模中的一个重要环节.为了能够全面地分析问题,人们总是尽可能地收集与研究问题相关的变量.在建模过程中,过多的变量,不仅会使模型变得复杂,而且会降低模型的解释效果和预测能力.因此,变量选择是统计中极其重要的问题.它不仅能够改进模型的效果,而且能够使我们更好地理解数据本身的内在联系.特别是在高维数据中,如何从众多的信息或变量中提取相关的特征,成为统计建模的关键,因而高维数据的变量选择已成为高维数据分析的热点问题之一.高维数据稀疏化的最有效最常用的手段是基于罚函数的稀疏正则化方法,它可以同时进行变量选择和参数估计.因此,高维数据的稀疏正则化方法的研究具有十分重要的理论意义和应用价值.本文从正则化项的构造、正则化参数的选择、算法设计和相关渐进理论的研究等角度研究了高维模型的变量选择问题.本文主要进行的研究工作和取得的成果如下:首先,构造了一种新的罚函数,即分数阶绝对可微(fractional absolute differ-entiable,简记为FAD)凹罚函数用于变量选择和参数估计.理论上证明了基于FAD罚函数的正则化变量选择方法在一定的正则化条件下,满足模型选择的一致性和参数估计的渐进正态性,即Oracle性质.算法上利用局部二次逼近(LQA)算法求解该正则化模型.模拟研究表明FAD正则化方法相比LASSO、SCAD和MCP等变量选择方法具有更小的模型误差和更高的预测精度.其次,针对误差为重尾分布且解释变量中含有被污染数据的线性回归模型,本文提出了加权LAD-SCAD正则化方法.该方法将WLAD估计和SCAD结合达到同时变量选择和参数估计的目的.对于权函数的选择,本文则运用了一种基于“去污子集”的概念来构造权函数.理论方而,首先证明了LAD-SCAD估计在维数p为发散的高维情形下满足Oracle性质;然后给出了WLAD-SCAD估计的理论性质.算法方面,采用局部二次逼近算法,并用BIC准则选择正则化参数.再次,提出了一种指数型罚函数-EXP罚连续的逼近L0正则子.理论上证明了在适当的正则化条件下,基于EXP罚的最小二乘估计在参数个数为发散的高维情形下能够一致的选择正确的模型且参数估计具有渐进正态性.如此同时,针对该罚函数本文提出一种修正的BIC(MBIC)准则选择正则化参数,并证明MBIC准则在具有发散参数的高维情形下能够一致的选择真实模型.算法方面,文中提出了坐标下降(CD)算法和和迭代的LASSO (IRL)算法,这两种算法都能快速有效的选择真实模型.数值模拟和实例分析表明本文提出的方法具有更强的变量选择能力,对参数的估计更精确.最后,论文讨论了高维部分线性模型的变量选择.文中提出了双罚的估计方法,对非参数部分采用基于小波软阀的估计,对参数部分利用SCAD罚方法.模拟结果表明该双罚估计方法能够同时进行变量选择和参数估计,在各种情形下都具有很好的变量选择性能.