若干高维模型变量选择和模型重建问题的研究

若干高维模型变量选择和模型重建问题的研究

论文摘要

在过去的几十年内,随着网络的日趋发达和计算机存储功能的日益强大,人们可以搜集到金融市场,基因表达,组合化学和其他许多领域内的很多大型数据集。这些数据集通常具有很高的维数(大p,小n)。如果我们直接利用这几万或几十万甚至更多的变量来建模的话,成本会非常高,而且预测效果也会很差。变量选择就是一种从这些变量中选择重要的相关变量来达到稳健建模的技术。本文主要考察了两个方面的问题:变量选择和模型纠偏。一方面,我们研究了种流行的变量选择方法Dantzig选择器的模型选择的相合性,接着我们又研究了适应的Dantzig选择器的大样本性质。二者都是在高维线性模型的背景下研究的。另一方面,对于有偏的子模型,我们通过在模型中添加一个非参项来调整子模型,从而部分地纠正了子模型的偏。关于高维变量选择问题,已经有很多种处理的方法。Dantzig选择器,作为一种有效的变量选择方法,是由Candes and Tao(2007)提出来的,这种方法现在已经成为一种非常流行的变量选择方法。但是它的大样本性质,除了Dickcr and Lin(2009)以外,几乎没有别的文献研究过.Dickcr and Lin(2009)研究了在随机设计,变量个数p是固定的情形下,Dantzig选择器的模型选择相合性。在我们论文的第二章中,我们考虑的是在固定设计的假设下,得到了无论p是固定的还是大于n的时候,Dantzig选择器的模型选择相合性。考虑如下的线性模型其中y=(Y1,Y2,…,Yn)’是一个n×1的响应变量,X=(X1,X2,…,Xn)’=(X1,Xp)是一个n×p维的固定设计阵,其中Xi是x的第i行,而Xj是x的第j列,ε=(ε1,ε2,…εn)是一个n维的独立同分布的误差项,满足E(ε1)=0和E(ε12)=σ2.令T*={j:βj≠0},即我们用T*来表示真模型的变量的下标的集合。对于{1,….p}的一个子集T,|T|表示子集T中元素的个数,T表示子集T在全集{1,2.….p}上的补集。βT=(βj)j∈T表示β对应于下标在集合T中的分量所构成的|T|×1的向量。记C=X’X/n对于{1,2,…,p}中的子集T1.T2,我们用CT1,T2来表示由矩阵C的分别对应于子集T1,T2中元素的那些行和列所构成的|T1|×|T2|矩阵。我们首先定义了在固定设计下,Dantzig选择器的不可表示条件。假设对于某个E∈{1:2,….,p}满足|E|=|T*|,Cr*,E是可逆的,则不可表示条件定义为:·不等式成立并且存在一个正常数η满足其中1是一个每个分量都是1的(p一q)×1维向量,并且|.|表示上面的不等式成立指的是不等式的左侧的向量中每个分量的绝对值逐个与右侧的分量比较。这里的不可表示条件指的是不显著的变量不可能由显著变量表示。不可表示条件对于Dantzig选择器的相合性具有非常重要的作用。在不可表示条件成立的条件下我们得到了,无论p(变量个数)是固定的,还是随着n增大的,甚至是关于n以指数的速度增长,Dantzig选择器都是模型选择相合的。这里的相合指的是依概率符号相合,即其中βD(λ)is Dantzig选择器的解,λ是惩罚参数.我们还研究了变量选择后的传统的参数估计的相合性。我们得到了如果显著变量的个数满足q=o(n),变量选择后的传统的参数估计是也是相合的。正如我们在上面的第二章中证明的,只要潜在的真模型满足不可表示条件,Dantzig选择器就具有相合性,但是当不可表示条件不成立的时候,模型选择的相合性就不再满足了。此外,Dantzig估计也达不到Fan and Li(2001)和Fan and Pcng(2004)里给出的oracle性质。我们发现Dantzig选择器的惩罚方式有些不公平,因为所有大小的系数惩罚的程度都是一样的。因此,在第三章中,我们给不同大小的系数施加不同程度的惩罚,给出了一种加权的Dantzig选择器,这也就是所谓的适应的Dantzig选择器,对于适应的Dantzig选择器,我们研究了它在稀疏高维线性模型下的,对于不同大小的p的渐近性质。我们证明了只要能得到一个合理的初始估计,在适当的条件下,而无需满足不可表示条件,适应的Dantzig选择器具有oracle性质,不管p以多项式的速度还是以指数的速度趋于无穷。即适应的Dantzig选择器的解β(ADS)满足下面两条:(a)P(β(ADS)=sβ)→1,n→+∞(b).(?)(β(ADS)T-βT)→DN(0,1),其中sn2=σ2(?)n’∈Rq满足║(?)n║≤1.第三章的最后,我们对于p≤n和p>n分别给出了都给出了恰当的初始估计作为适应的Dantzig选择器的权重。在实际应用中,重要变量通常是依据于实际经验被选出来的。例如,在医学上,寻找某种癌症的致病基因都是取决于临床试验,这种做法通常是不可能把所有与癌症有关的基因都选出来的。此外,在某些情况下,既使我们使用一种模型选择相合的变量选择方法,例如Dantzig选择器,我们在一次选择中,也不可能保证总能成功的选出真模型。因此,在实际应用中,我们的子模型通常都是有偏的。如果我们就用这个有偏的子模型来做预测或控制的话,肯定得不到好的结果。因此,纠正或者减小子模型的偏是一件非常必要也是非常有意义的事情。在第四章中,我们对子模型进行重新建模,使得新的模型是可识别的并且无偏的。这里我们不再考虑线性模型,而是考虑一类更广泛的模型-部分线性模型。它的定义为其中Y2响应变量Y的独立同分布的观测值,(Τi,Χi’,Ζi’)是协变量(T.X’,z’)的观测值,β=(β1,...,βp)’是一个p维的未知参数向量,γ=(γ1…,γq)’是一个q维的未知参数向量,g(·)是一个未知函数.为了避免维数灾难问题,我们简单的假设T是一维的,ξis是独立同分布的误差项满足这里γ的维数q可能很高甚至随着样本量的增大趋于无穷。我们假设z是相对来说不太相关的变量因此被从全模型中剔除掉了。我们记所得到的子模型为这样的一个子模型是有偏的,因为剔除掉的Z的系数γ中的分量只是相对较小,而非全为零。为了解决此问题,我们利用非参调整的方法得到一个局部无偏的子模型。调整后的子模型形如其中T是某个给定的已知向量。这里提到的局部无偏的子模型指的是我们可以构造一个样本子空间,能够证明当样本落入该给定的子空间的时候,无论是基于调整子模型得到的调整的约束模型估计还是调整的预设检验估计都是相合的。虽然我们只是部分地纠了子模型的偏,但值得庆幸的是,从某种意义上来讲,这样的一个子空间还是足够大的。所以这样的一个局部无偏是接近于全局无偏的。模拟实验和实际数据的应用进一步阐释了文中介绍的各种方法。

论文目录

  • 中文摘要
  • 英文摘要
  • 第一章 绪论
  • §1.1 变量选择
  • §1.1.1 背景介绍
  • §1.1.2 Dantzig selector变量选择方法
  • §1.2 半参数回归模型
  • §1.2.1 部分线性模型
  • §1.2.2 部分线性可加模型
  • 第二章 Dantzig selector的模型选择相合性
  • §2.1 引言
  • §2.2 不可表示条件与符号相合
  • §2.2.1 对于固定的p和q的符号相合
  • §2.2.2 当p和q→∞时的符号相合
  • c)且q→∞时的符号相合'>§2.2.3 p=exp(nc)且q→∞时的符号相合
  • §2.2.4 变量选择后估计的相合性
  • §2.3 数值模拟
  • §2.4 结论
  • §2.5 证明
  • 第三章 高维稀疏回归模型下的适应的Dantzig selector变量选择
  • §3.1 引言
  • §3.2 适应的Dantzig selector
  • §3.3 系数的初始估计的选取
  • §3.4 数值模拟
  • §3.5 证明
  • 第四章 有偏的高维部分线性子模型的相合推断
  • §4.1 引言
  • §4.2 部分线性子模型的估计
  • §4.2.1 经典的参数估计量
  • §4.2.2 调整模型和调整估计量
  • §4.3 经验似然置信区间
  • §4.4 数值模拟
  • §4.5 证明
  • 参考文献
  • 致谢
  • 攻读博士学位期间完成论文情况
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    • [1].四选一数据选择器74LS153级联方法分析与研究[J]. 电脑与电信 2017(06)
    • [2].遥测数据选择器的设计与研究[J]. 计算机测量与控制 2014(09)
    • [3].双四选一数据选择器74HC153的级联分析及研究[J]. 大学物理实验 2015(02)
    • [4].速度选择器电极结构的优化[J]. 原子能科学技术 2013(12)
    • [5].关于速度选择器的讨论[J]. 考试(教研) 2011(11)
    • [6].基于数据选择器输出函数关系的逻辑电路设计[J]. 吉林大学学报(信息科学版) 2015(05)
    • [7].关于速度选择器的两个“定论”[J]. 物理通报 2012(07)
    • [8].关于速度选择器在一般情况下的讨论[J]. 物理通报 2014(S2)
    • [9].带电粒子在速度选择器中的运动——对人教版普通高中物理教材一题的改进分析及建议[J]. 物理通报 2016(04)
    • [10].数据选择器非常规使用的探讨[J]. 苏州市职业大学学报 2013(02)
    • [11].基于译码器和数据选择器进行组合逻辑电路设计[J]. 喀什师范学院学报 2012(03)
    • [12].污水处理厂中生物选择器的设计探讨[J]. 给水排水 2011(09)
    • [13].基于数据选择器的自动日历表的设计[J]. 数字技术与应用 2011(10)
    • [14].生物选择器与污泥膨胀控制[J]. 山西建筑 2010(24)
    • [15].数据选择器在数字电路中的应用[J]. 重庆邮电大学学报(自然科学版) 2008(S1)
    • [16].基于电流型CMOS电路的新型数据选择器[J]. 杭州师范大学学报(自然科学版) 2020(01)
    • [17].数字电路中如何利用数据选择器设计电路[J]. 电脑知识与技术 2019(30)
    • [18].机械速度选择器特征参数计算[J]. 核电子学与探测技术 2010(07)
    • [19].从运动合成看速度选择器的参数设置[J]. 中学物理教学参考 2011(11)
    • [20].数据选择器竞争冒险及其处理的仿真分析[J]. 湖北师范学院学报(自然科学版) 2016(01)
    • [21].对带电粒子在速度选择器中运动的讨论[J]. 物理教学探讨 2015(08)
    • [22].集成数据选择器实现组合逻辑函数技巧[J]. 电气电子教学学报 2016(01)
    • [23].关于粒子速度选择器可靠性的讨论[J]. 湖南中学物理 2011(06)
    • [24].一种基于电荷泵的衬底电位选择器设计[J]. 桂林电子科技大学学报 2013(04)
    • [25].生物选择器的体积比对氧化沟运行效果的影响研究[J]. 工业水处理 2011(11)
    • [26].速度选择器模型全攻略[J]. 物理教学探讨 2009(33)
    • [27].生物选择器中物种选择的计算机模拟[J]. 江西理工大学学报 2008(03)
    • [28].速度选择器加以限制方能发挥作用[J]. 中学物理 2012(13)
    • [29].基于CSS选择器的HTML信息抽取研究[J]. 信息技术与信息化 2015(03)
    • [30].多通道准光学系统中频率选择器的理论分析和设计[J]. 科技创新导报 2008(13)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    若干高维模型变量选择和模型重建问题的研究
    下载Doc文档

    猜你喜欢