论文摘要
数据缺失在纵向研究中往往是无法避免的。若其缺失机制与未观测到的反应变量有关,称为非随机缺失(MNAR)机制。目前常用的缺失数据处理方法,如EM算法、MI等均只适用于随机缺失(MAR)。资料中包含MNAR时,采用上述方法的参数估计可能有偏。模式混合模型(PMM)将缺失模式引入随机效应模型,不但允许各种缺失模式下的截距不同,其它参数之间也可不同,进而解释了由于MNAR所引致的偏倚,是一种理论完善,具有实际意义的缺失值处理方法。为解决监测资料中MNAR问题,本课题系统阐述了模式混合模型(PMM)原理,根据数据缺失比例模拟证实了不同样本含量的模式混合模型条件。结合社区高血压规范化管理数据,构建了随机效应模型,节俭模式混合模型(PA-PMM)和饱和模式混合模型(SA-PMM),进行了不同缺失模式下的线性估计。SAS编程实现不可忽略缺失机制检验,并对饱和模型结果进行了敏感性分析。主要结果如下:1、MNAR资料分析中PMM更具优势模拟研究证实对存在MNAR的数据集,缺失比例一定时,随样本含量增加,CC和PMM的估计结果与模拟真值越来越接近;样本含量大于200时,随缺失比例增加,CC与模拟真值偏离程度逐渐加大,而PMM与模拟真值均相近表明PMM参数估计结果更稳定。2、广义计分型检验是判断缺失机制的一种有效方法广义计分型检验Q统计量服从c 2分布。如果Q值大于Xa,v2,则有理由拒绝原假设,可以认为该缺失机制为不可忽略缺失。本实例缺失比例达12%,收缩压和舒张压广义计分型检验,Q值分别为387.96和36.90, P值均小于0.01,尚不能认为其缺失机制为MCAR。据专业知识分析,每次监测的血压是否会出现缺失,很可能与未观测到的血压值有关,因此判断其缺失机制为MNAR。3、按不完全数据缺失模式进行模式混合模型分析,各层中可得到不同模型,更符合专业解释。对社区高血压规范化管理数据,分别构建收缩压和舒张压PA-PMM和SA-PMM。假定4种缺失模式间PA-PMM仅截距项不同,而SA-PMM则所有参数均不相同。分析结果表明,PA-PMM中4种模式下的截距线性估计值均接近,且与混合效应模型的截距也相近,而SA-PMM各个参数的线性估计值则不同。以病程为一年,60岁男性高血压患者为例,完全数据(模式1)收缩压最低;后三次以上的监测数据缺失模式(模式4)收缩压最高;而舒张压结果,模式1最高,模式4最低。表明该研究中血压未得到有效控制的患者更易出现数据缺失。4、敏感性分析是MNAR资料分析的重要内容MNAR易受未观测到的反应变量的影响,无法由已观测到的数据证实,任何MNAR都应进行敏感性分析。例中取敏感性参数(l )为-10、-5、-3、0、3、5和10,结果表明,l =10时收缩压预测值与PMM最接近,l =-3的舒张压预测值与PMM最接近。表明收缩压较高或舒张压较低的患者更易出现缺失,进一步证实该资料数据缺失机制为MNAR。