潜在分类模型在血吸虫诊断中的应用研究

论文摘要

[研究背景]在热带、亚热带寄生虫疾病中,血吸虫病对人类社会经济和公共卫生的影响排名第二。在控制和消灭血吸虫感染的过程中,血吸虫感染的正确诊断则是必要前提。目前,诊断血吸虫感染最常用的方法为Kato-Katz检验方法。Kato-Katz方法具有操作简单,成本低廉等优点,但该方法的缺陷是灵敏度较低。近年来,循环阴极抗原（Circulating cathodic antigen,简称“CCA”）诊断方法逐渐得到应用和推广。CCA方法能够检测到血液或尿液中存活的成年血吸虫蠕虫分泌的抗原,其灵敏度较Kato-Katz方法高。现已商业化的CCA尿样检测方法包括两种：横流法胶体金快速检测CCA试剂条（简称“CCA1”）和只能在实验室使用的胶体炭单克隆抗体CCA方法（简称“CCA2”）。无论是Kato-Katz方法、CCA方法,还是任何其它检验血吸虫感染的诊断方法,它们都不能保证灵敏度和特异度均为100%。也就是说目前血吸虫感染的诊断尚没有金标准诊断方法。当存在诊断金标准时,诊断试验的评价是简单直接的。但是,在大多数情况下,由于种种因素的限制而导致诊断金标准不存在或者难以普及。对于没有金标准的诊断方法的评价,其灵敏度和特异度的估计难言准确。有学者希望通过组合多个诊断试验结果的方式,使得参照标准的灵敏度和特异度尽可能地接近金标准。常用的提高参照标准的灵敏度和特异度的方法包括DiscrepantResolution （简称"DR方法”）和Composite Reference Standards（简称"CRS方法”）两种方法。在DR方法中,由于其参照“金标准”依赖于待评价诊断方法自身的诊断结果,因此其所估计的灵敏度和特异度等指标的解释存在矛盾。相对DR方法而言,CRS方法往往所要耗费成本较大。最重要的是,无论是DR方法还是CRS方法,它们所确定参照标准与实际的诊断金标准仍有一定的误差,因此它们所估计诊断试验的灵敏度和特异度等指标并不可靠。近年来,众多学者尝试利用潜在分类模型在缺乏诊断金标准的情况下对诊断试验的准确性和疾病的患病率等参数进行估计和评价。潜在分类模型的基本原理就是通过多个可直接测量的显变量预测难以直接测量的潜变量。大量的研究已经证明了潜在分类模型在诊断试验评价中的有效性。在经典的潜在分类模型的应用中,通常假设在患病状态分类已知的前提下（如“患病”和“未患病”,“感染”和“未感染”等）,各种诊断方法的检验结果是相互独立的。在经典的条件独立潜在分类模型中,有2q个方程用于预测2q+1个参数。当q≤2时,统计模型不可识别。此外,经典的条件独立潜在分类模型大多忽略协变量因素对模型的影响,故在某些情境下可能因为忽略某些重要的信息而使所估计的参数出现较大的偏差。经典的条件独立潜在分类模型的另一个缺陷是其所要评价的每种诊断方法的诊断结果必须只有一个。当某种诊断方法有重复多次的诊断结果时,必须先将重复诊断结果整合为一个二分类结局变量,而这种整合往往存在误差。鉴于上述血吸虫感染的诊断所面临的问题,本研究尝试改进经典的条件独立潜在分类模型。基本思路为：基于二项分布、零膨胀泊松分布、零膨胀负二项分布等不同分布假设下,模型中保留重复的检验结果,设置协变量项,以满足实际资料的各种可能情况,从而提高估计灵敏度、特异度以及血吸虫感染率的准确性,为血吸虫感染的诊断提供一种更为有效的方法。[研究目的]本课题的主要研究目的是通过建立基于混合二项分布的条件独立潜在分类模型,评价比较Kato-Katz、CCA1和CCA2三种血吸虫诊断方法的灵敏度和特异度,以及估计Cameroon国家曼氏血吸虫病感染率。并通过比较,选择适用于实例的最优的统计模型。[数据来源]本研究所采用的数据来源于Cameroon国家POC/CCA项目的调查结果。从2011年2月至2011年3月,Camroon国家的Yaounde, Makenene和Njombe三个城市共750在校小学儿童被纳入了POC/CCA研究。POC/CCA研究共采用了Kato-Katz、CCA1和CCA2三种诊断方法检验受试者血吸虫感染的情况。大部分受试者分别接受三次Kato-Katz、CCA1检验和一次CCA2检验。POC/CCA还记录了诸如年龄,性别和所在城市等可能影响受试者感染血吸虫概率的信息。[潜在分类模型]本课题探讨6个基于条件独立潜在分类概率理论的统计模型在Kato-Katz、CCA1和CCA2三种血吸虫诊断方法评价和血吸虫感染率估计中的作用。6个统计模型中,只有模型1没有考虑协变量因素对模型的影响；模型1和模型2将Kato-Katz检验结果看成是二分类结局变量,其余4个统计模型将Kato-Katz检验结果看成是连续性变量；考虑到血吸虫虫卵数分布高度离散和零频数很大的分布特点,本研究将零膨胀泊松分布和零膨胀负二项分布模型整合到模型3、模型4、模型5和模型6中。本课题采用EM算法进行参数的极大似然估计。在模型3至模型6的参数的极大似然估计中,我们采用EM加速算法,即在部分参数估计的M步采用了Newton-Raphson迭代算法,以加快参数收敛的速度。此外,AIC、BIC准则,和过度离散模型的假设检验被用于比较和选择模型。[结果]三种检验方法中,CCA1的灵敏度最大（大于0.86）,但其特异度最小（小于0.74）；Kato-Katz的灵敏度居于CCA1和CCA2之间,但其特异度达到1.00,为三者中最大。与同时考虑三种检验方法的检验结果相比,当统计模型中只考虑单种检验方法（如CCA1或Kato-Katz）的检验结果时,估计的灵敏度和/或特异度增大。在6个统计模型中：模型2、模型5和模型6中CCA1的灵敏度和特异度与模型1、模型3和模型4中CCA1的灵敏度和特异度相比具有显著差异,且前者的CCA1的灵敏度和特异度均比后者的大；模型3和模型4的CCA2的灵敏度和特异度与其它4个统计模型的相比均有显著性差异,且模型3和模型4的特异度比其它4个统计模型的特异度都小。当只考虑年龄和性别而忽略城市因素的影响时,所有统计模型中CCA1和CCA2的特异度均减小,CCA2的灵敏度增大,但这种增大或减小的趋势大多数情况下并不显著。当直接以Kato-Katz、CCA1或CCA2阳性概率值作为血吸虫感染率时,其预测值小于或等于各统计模型下的血吸虫感染率估计值。模型4和模型6中过度离散参数假设检验均不拒绝零假设,故在本实例研究中,泊松分布模型比负二项分布模型更适合。模型5比模型3的拟合效果好,这可能是由于模型5考虑了粪便中血吸虫虫卵每天的变异的影响。在Cameroon国家的三个调查城市中,Makenene的血吸虫感染率最大（0.8左右）,Yaounde的血吸虫感染率最小（0.3左右）。在同一个城市中,男学生的血吸虫感染率大于女学生血吸虫的感染率；且随着年龄增长,血吸虫感染率增大。在模型3和模型4中,同一地区、同一年龄段、不同性别之间的血吸虫感染率差别不大。与模型3和模型4相比,模型2、模型5和模型6估计的血吸虫感染率较大,并且同一地区、同一年龄段、不同性别之间的血吸虫感染率差别显著。参照诊断方法的灵敏度越小,DR方法、CRS方法和非金标准直接参照法估计的CCA1的灵敏度越大。DR方法、CRS方法和非金标准直接参照法可能会低估血吸虫感染率。[结论]本课题基于不同的理论假设,对经典的条件独立潜在分类模型进行改进,并用改进的条件独立潜在分类模型评价和比较Kato-Katz、CCA1和CCA2三种血吸虫诊断方法的灵敏度和特异度,为血吸虫感染监测和控制项目提供评价依据。研究结果显示：三种诊断方法中,CCA1方法的灵敏最大,但其特异度最小；Kato-Katz方法灵敏度比CCA1的小,但是其特异度可以达到100%。本课题还对6个改进的条件独立潜在分类模型进行评价、比较。比较结果显示：在本实例研究中,泊松分布比负二项分布更适合用于估计Kato-Katz方法检验结果中受试者感染血吸虫病的概率；在所有统计模型中,模型5和模型2的拟合效果最好。由于模型5考虑了具体每次Kato-Katz的血吸虫虫卵数检测结果对统计模型影响,而模型2却将连续的Kato-Katz检测值转化为简单的二分类变量从而导致信息的损失。综合考虑,本实例分析推荐用模型5,即其中,Nij表示用诊断方法j测量受试者i的次数,Zij表示诊断结果为阳性的次数；aj为诊断方法j的灵敏度,βj为诊断方法j的为特异度；令Yik表示受试者i在第k次Kato-Katz检验中所检测出来的虫卵数；ui和vik为两个二分类潜变量；γ为估计血吸虫感染率的logistic回归方程中的回归系数,ζ为估计血吸虫感染强度的对数回归方程中的回归系数；ζ为估计在诊断受试者感染血吸虫病的前提下检验出血吸虫虫卵的概率的logistic回归方程中的回归系数。

论文目录

摘要

ABSTRACT

第一部分前言

1. 实例背景

2. 传统诊断试验的评价方法

3. 潜在分类模型

4. 研究目的

第二部分材料和方法

1. 数据来源

2. 潜在分类模型

3. 初始值的设置

4. 模型拟合

5. 过度离散模型的选择

第三部分实例分析

1. 血吸虫检出率

2. 血吸虫虫卵数分布

3. 潜在分类模型参数的极大似然估计结果

4. 灵敏度和特异度比较

5. 模型拟合结果

6. 血吸虫感染率

7. 血吸虫感染强度

8. 过度离散模型的选择

1的诊断评价结果'>9. 非金标准作参照时对CCA₁的诊断评价结果

10. 综合小结

第四部分讨论

1. 研究结论

2. 本研究的优势

3. 本研究的局限性

参考文献

附录

攻读学位期间成果

致谢

附件

潜在分类模型在血吸虫诊断中的应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢