论文摘要
研究背景:在医学研究中,经常遇到零频数过多的计数资料,如亚健康症状数。此种数据表现为离散型资料,其观察值为零或正整数,但是近半数甚至于大多数观察值为零,过多零频数的存在使得数据过度离散。传统的负二项回归和Poisson回归模型的拟合效果将受到影响,在模型拟合过程中,如果忽略这些零的存在,对参数的估计就会产生偏差。在这种情况下可把原始数据集看成是由一个全零数据集和一个服从Poisson分布或负二项分布的数据集混合而成,这就是零频数过多的回归模型,简称ZI模型。已报道的关于ZI模型应用的研究都是通过一个实际样本探讨ZI模型的应用效果,并与传统的Poisson回归和负二项回归模型进行比较,没有一项研究能够在各种零频数比例下验证ZI模型的拟合优度,探讨零频数比例多大时则过多,及在何种零频数比例下数据分布将不满足传统的Poisson回归或负二项回归模型的要求。本研究利用bootstrap方法在实例样本中通过随机模拟获取各种比例零频数的模拟样本,得到各种零频数比例的随机样本,探讨各种比例零频数时的最优拟合模型,解决零频数比例何时过大而必须采用ZI模型的问题;同时研究ZI模型在亚健康症状数资料中的适用性。研究方法ZI模型产生的前提正是可以同时解决资料的过度离散和零频数过多的问题。ZI模型可在医学领域中用于估计一个两阶段的疾病进程,其基本思想是把零事件的发生看做两部分,模型也包括两部分,第一部分来源于那些从未可能发生事件的个体或处于低风险个体,模型参数的解释和一般的logistic回归相似,说明协变量是否影响事件发生;第二部分来源于在Poisson分布或负二项分布条件下没有发生事件的个体或处于高风险个体,模型参数的解释与传统的Poisson回归或负二项回归一样,说明协变量影响事件发生多少的问题。本研究以亚健康症状数为响应变量,以性别、年龄、婚姻状况、民族、职业、吸烟、饮酒、血压高和肥胖为解释变量,用SAS9.2软件分别对各种零频数比例的bootstrap样本拟合Poisson回归、负二项回归、ZI模型和序数回归模型。用α系数、O检验和Vuong检验等进行数据的过度离散性和零频数是否过多的判断,并用回归模型对各种计数值的预测概率及似然比、AIC、BIC等指标对各种模型的拟合优度进行判定,以选择最优的模型。研究结果在样本量为11227的实际样本中,43.3%的受试者没有阳性的亚健康症状,离散系数α为1.013,95%CI为0.965-1.063,可以认为α显著大于0,对亚健康症状数进行过度离散性检验,x=2.90,s=3.85,离散统计量O=308.011,P<0.0001,方差显著大于均数,表明存在过度离散,亚健康症状数不符合Poisson分布。Vuong检验的统计量Z=31.93,P<0.0001,表明此数据的零频数过多,远远超出了传统负二项分布的估计范围,用负二项分布也不能很好的拟合数据特征。ZINB模型的Log likelihood最大(-22170.741),AIC(44363.482)和BIC(44444.069)最小,且ZINB模型对各种频数的预测概率与实测频率的吻合程度最高。从各拟合优度指标和预测概率而言,ZINB模型是进行亚健康症状数影响因素分析的最佳模型。在ZINB模型中,从Logit部分可见,年龄越高(β=-0.436,P<0.001)、民族为朝鲜族(p=-2.253,P<0.001)是出现亚健康症状的危险因素,而单身(p=2.175,P=0.006)和从事脑力劳动(β=1.527,P<0.001)的受试者不容易受到亚健康症状的危害。而由负二项部分发现,年龄、性别、脑力劳动、饮酒和婚姻状况是亚健康症状数多少的影响因素,即在处于亚健康状态的受试者中,女性(p=0.280,P<0.001)、饮酒者(p=0.098,P=0.008)、离异或丧偶的受试者(p=0.200,P<0.001),具有更多的亚健康症状;而年龄越大(p=-0.003,P=0.009)和从事脑力劳动(p=-0.076,P=0.012)的受试者可能具有较少的亚健康症状。各种零频数比例的bootstrap抽样模拟样本中,当零频数比例小于15%时,ZINB模型的拟合效果与传统的负二项回归模型相当,ZINB模型未体现出拟合效果和结果解释上的优势;而当零频数比例在20%以上时,ZINB模型的拟合效果明显优于传统的负二项回归模型,此时综合考虑拟合优度、预测概率、结果解释的合理性方面,ZINB模型是最佳模型,特别是当零频数比例达到70%以上时,ZINB模型对响应变量的各观察值的预测概率与实际频率几乎完全一致。当零频数比例达到或超过85%时,序数回归模型的似然比和AIC等指标也较为理想,但从模型对各种频数的预测效果而言,不管零频数的比例大小如何,序数回归模型的预测效果与实测频率均相差较大,序数模型不是进行此类计数资料分析的最佳选择。在任何零频数比例时,由于本样本数据过度离散,Poisson回归的拟合效果都是最差的,ZIP模型的拟合效果也不好。结论当零频数的比例达到20%以上时,各种模型预测概率、拟合优度检验、过度离散性检验和零频数过多检验结果均显示ZINB模型是研究亚健康症状数资料的最优模型,为ZINB模型在零频数过多的计数资料中的应用提供了理论上的依据。
论文目录
相关论文文献
标签:计数资料论文; 分布论文; 负二项分布论文; 零频数过多的回归模型论文; 亚健康论文;