论文摘要
医学研究多阶段复杂抽样中,层次结构数据屡见不鲜。为了有效处理数据中层内存在的非独立性,多水平模型应运而生,也成为近年讨论的热点。文中第一章通过线性多水平模型与普通回归形式之不同,解析了多水平模型中包括的复合残差项,即水平2误差项u 0j、u1 j和水平1误差项ei j。进一步阐明多水平模型在处理具有层次结构特征数据时,考虑了数据误差的层次性,将传统模型中的误差随机项分解到与数据层次结构对应的水平上,通过估计个体水平上的误差,并考虑解释变量对方差的影响,它不仅可充分利用个体水平内的聚集信息,获取回归系数的有效估计,而且可使个体的随机误差更纯,同时提供拟合研究水平上复杂误差结构的可能性。本文参考王济川等的研究结果,将多水平模型的建模步骤分为:空模型→将水平2解释变量纳入空模型→将水平1解释变量纳入截距模型→检验水平1随机斜率→检验跨水平交互作用共5步。文中第二章主要阐述了多水平Poisson、多水平负二项以及多水平零膨胀计数(Poisson、负二项)模型的基本原理,讨论了其参数估计和假设检验方法。多水平Poisson和负二项回归是处理分层计数数据分析的基础模型。若分层资料计数取值中含有大量的零,即零过多现象,应考虑多水平零膨胀计数模型。该模型可利用分析数据中产生额外零的两个过程,减少数据中由于过多零导致的估计偏性,使参数估计结果更准确。本文假定随机变量yi j服从多水平零膨胀Poisson分布,分别拟合多水平Poisson、ZIP和多水平ZIP进行模拟研究,结果显示多水平Poisson和ZIP估计值与模拟真实有一定相差;而无论水平1i和水平2 j观察单位如何取值,多水平零膨胀计数模型估计值均接近模拟真值。因此,对于既存在组群结构,又含过多零的数据,采用多水平零膨胀计数模型分析是更好的选择。文中第三章通过居民两周就诊次数和农村地区居民骨关节疼痛部位数的影响因素分析实例,进一步揭示两实例中均存在分层结构,个体嵌套于调查点(村庄)或家庭。借鉴多水平模型建模的思想,分别拟合多水平计数模型。在骨关节疼痛部位数的影响因素分析中,Vuong结果表明,多水平零膨胀模型比多水平基础计数模型拟合效果更优。若存在过度离散问题,多水平零膨胀负二项模型拟合效果最佳,结果解释更合理。多水平模型形式多样,其随机斜率的个数和模型层次数多不固定。多水平零膨胀计数模型,两部分的线性预测部分可以根据研究目的选择不同的解释变量,两部分的随机效应允许相关性存在或非独立。总之,实际问题研究中可根据具体的研究目的,按模型原理和软件实现,完成多种具体的多水平计数模型构建。