针对零膨胀超散度计数数据的统计推断

针对零膨胀超散度计数数据的统计推断

论文摘要

计数数据是广泛存在于日常生活和研究中的一类离散数据。对于该类数据,我们一般使用普通泊松分布对其进行回归分析。该方法在过去的实践和研究中被广泛应用。然而,相对于普通的泊松分布存在过分多零的计数数据,在日常生活和研究中也经常会碰到。对于该类计数数据,如果仍沿用普通的泊松分布去拟合,将会导致偏差过大的参数估计和错误的推断。为解决这一问题,针对该类数据的将普通泊松分布和在零点的退化分布混合起来构成的零膨胀泊松混合回归(ZIP)模型被提出来。而对于所研究的计数数据是否确实存在零膨胀的判断,对模型的选择起到决定性的作用。对此,本文提出了一种Score检验方法来判断所研究的计数数据是否存在零膨胀。如果零膨胀确实存在,则使用ZIP模型进行回归分析;否则,可继续沿用传统的相对简单的普通泊松分布进行回归分析。此外,对于普通的计数数据,由于纵向数据采集机制等原因,数据之间可能会存在关联性和分层结构。这时普通的单水平模型将不能得到理想的参数估计和检验结果。对此,针对这类有着分层结构的数据的多水平回归模型被提出来。本文基于最为广泛的具有分层结构的双水平数据,采用贝叶斯方法对该类数据进行了参数估计和检验判断。除了计数数据存在过分多零的情况外,对于非零部分的计数数据,也可能会存在相对于普通的泊松分布方差与均值存在较大偏差,即超散度的情形。此时,若仍采用普通的零膨胀泊松混合回归模型(ZIP)来处理该类数据,将不能得到最佳的拟合效果。而由于带有散度参数的负二项分布(NB)能够更充分的解释该散度过大的问题,所以,可以采用零膨胀负二项混合回归模型(ZINB)来处理该类数据以达到最佳拟合效果。而在模型的选择之前,对于所研究的数据是否存在超散度的检验也是必不可少的。为此,本文提出了针对双水平情形下的该类数据是否存在超散度的Score检验。若结果显示超散度不存在,则可使用ZIP模型进行回归分析:否则,应选用ZINB模型。在实际生活和研究中,经常会碰到数据缺失的情形,它给参数估计和模型推断带来了许多麻烦。对于该类缺失数据的处理,前人已经总结了大量的方法,但均是基于随机缺失的假设前提下,且认为各协变量是属于同一多元分布。而事实上,很多缺失是由于测量值超出测度范围或其它一些非随机因素引起的,即所谓的非随机缺失。对于该类缺失数据,传统的缺失数据处理方法将不再适合。针对该类缺失数据,本文将传统方法加以优化,即将缺失数据作为未知参数对待,再采用Gibbs抽样的方法,以及数据分解技巧来填充所缺失的数据,并将该方法应用到所研究的模型中。通过模拟结果显示,对于非随机缺失数据,该方法要明显优于随机缺失假设下的传统方法。最后,在本文的结尾,对于本文所做的工作进行了总结。并对针对计数数据的模型的后续研究方向做了一个初步的展望与预测。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景
  • 1.3 本文的主要工作
  • 1.4 后续研究方向
  • 第二章 针对单水平计数数据零膨胀的检验和统计推断
  • 2.1 什么是零膨胀
  • 2.2 零膨胀泊松混合回归(ZIP)模型
  • 2.3 针对零膨胀的Score检验统计量
  • 2.4 模拟研究
  • 2.4.1 Score检验统计量的抽样分布
  • 2.4.2 Score检验统计量的势
  • 2.4.3 模型参数的贝叶斯估计
  • 2.5 实例分析
  • 2.6 本章小结
  • 第三章 基于带有缺失数据的双水平零膨胀泊松混合回归模型及其贝叶斯分析
  • 3.1 什么是纵向数据和丛数据
  • 3.2 针对纵向数据的双水平层次贝叶斯模型
  • 3.3 双水平层次贝叶斯模型的参数估计
  • 3.3.1 数据分解和先验设定
  • 3.3.2 后验分布
  • 3.3.3 贝叶斯估计
  • 3.4 缺失数据的处理
  • 3.5 模型选择
  • 3.6 模拟研究
  • 3.7 本章小结
  • 第四章 针对零膨胀计数数据的超散度检验
  • 4.1 什么是超散度
  • 4.2 零膨胀泊松混合回归模型和零膨胀负二项混合回归模型
  • 4.3 针对零膨胀计数数据超散度的Score检验
  • 4.4 对于超散度检验的Score检验统计量的抽样分布和势
  • 4.5 本章小结
  • 第五章 结束语
  • 致谢
  • 参考文献
  • 附录A 攻读硕士期间发表论文目录
  • 附录B 论文中涉及到的相关程序
  • 相关论文文献

    • [1].基于估计方程的简单计数数据统计分析[J]. 海南师范大学学报(自然科学版) 2018(03)
    • [2].调查中零频数过多的统计分析方法[J]. 绵阳师范学院学报 2015(05)
    • [3].基于随机效应模型的纵向计数数据统计分析[J]. 海南师范大学学报(自然科学版) 2018(02)
    • [4].TypeⅠ多元零膨胀指数威布尔分布及其性质研究[J]. 南阳理工学院学报 2019(02)
    • [5].零膨胀计数数据的联合建模及变量选择[J]. 统计研究 2019(01)
    • [6].广义线性模型中过离散成因的理论证明及检验[J]. 统计与决策 2016(16)
    • [7].ZOIP混合回归模型的参数估计[J]. 甘肃科学学报 2018(02)
    • [8].基于一般速率模型的面板计数数据统计分析[J]. 海南师范大学学报(自然科学版) 2018(03)
    • [9].基于SEM算法的零一膨胀二项回归模型的研究[J]. 计算机与数字工程 2018(12)
    • [10].改进论文统计学处理的通知[J]. 心血管康复医学杂志 2014(03)
    • [11].改进论文统计学处理的通知[J]. 心血管康复医学杂志 2014(05)
    • [12].散度偏大计数数据回归模型的变量选择与模型比较[J]. 应用数学与计算数学学报 2013(04)
    • [13].分组零膨胀泊松模型的半参数统计推断(英文)[J]. 中国科学院研究生院学报 2009(02)
    • [14].一种更具稳健性的计数控制图[J]. 价值工程 2020(17)
    • [15].针对零膨胀模型的Score检验及其在自然灾害分析中的应用[J]. 科学技术与工程 2011(33)
    • [16].一类带约束的零膨胀广义可加模型的惩罚似然估计[J]. 统计与决策 2020(02)
    • [17].仪器法血小板计数假性减少的相关性分析及对策[J]. 中国医药指南 2014(29)
    • [18].统计图[J]. 海峡预防医学杂志 2020(03)
    • [19].计数数据广义估计方程相关系数矩阵估计的相合性[J]. 数学的实践与认识 2019(02)
    • [20].统计图[J]. 海峡预防医学杂志 2019(04)
    • [21].制度安排与技术创新:基于负二项式模型的研究[J]. 科学学研究 2009(07)
    • [22].基于企业技术创新激励的环境工具的最优选择——利用排序多元Logit模型及离散计数数据模型的实证分析[J]. 科学学研究 2011(09)

    标签:;  ;  ;  ;  ;  ;  

    针对零膨胀超散度计数数据的统计推断
    下载Doc文档

    猜你喜欢