缺失数据的填充方法研究及实证分析

缺失数据的填充方法研究及实证分析

论文摘要

缺失数据的存在是试验研究中经常遇到也是比较棘手的一个问题,它不仅干扰估计精度,也影响统计工作人员后续工作的有效开展.在过去20多年里,有关缺失值处理方法一直是应用统计学界一个热点话题,国外对此问题进行了大量研究,但国内一般对于缺失值的处理,还仅限于删除缺失元组或均值填充等简单常规处理方法.随着人们研究问题的高深化和复杂化,这种简单常规处理方法已经不能满足决策需要.因此,为了有效解决这个问题,本文借助于现代统计手段,介绍了几种常见处理缺失值问题方法的原理,主要分为三大类,删除缺失元组,缺失数据填充以及不处理.本研究着重从数据填充方面着手,详细讨论了均值填充、随机填充、期望最大化(EM)填充、线性回归模型填充、多重填充等方法的填充原理以及待估参数的相关迭代公式.同时,以糖尿病人的血糖与血清总胆固醇,甘油三酯,空腹胰岛素,糖化血红蛋白等四个测度变量的关系作实证分析.为分析比较不同填充方法的填充效果和适用条件,在原始完整数据集上构造不同级别缺失率的随机缺失数据集,分别采用文中介绍方法对各缺失数据集进行处理,并从参数均值及其标准误、标准方差、估计值与真值的偏离程度以及样本分布等方面进行分析比较.此外,以大学生数学建模竞赛的论文排序为例,探讨了这一类特定高缺失率的数据集在各种方法下的填充效果差异,为以后的统计决策提供了思路.结果显示,EM算法和回归填充算法在不同缺失率下相对都比较稳定,低缺失率下分层均值填充占优势,而在中高缺失情形下多重填充发展空间较大,虽未达到预期理想效果,但结果处于接受域内.

论文目录

  • 摘要
  • Abstract
  • 第一章 前言
  • 1.1 选题背景及意义
  • 1.2 国内外研究概况
  • 1.3 本文的主要工作
  • 第二章 缺失值分类
  • 2.1 缺失模式
  • 2.2 缺失机制
  • 第三章 常见缺失值处理方法的理论基础
  • 3.1 删除元组(Deletion)
  • 3.2 数据填充(Imputation)
  • 3.2.1 单值填充(Single Imputation)
  • 3.2.1.1 均值填充(Mean Imputation)
  • 3.2.1.2 随机填充(Imputation at Random)
  • 3.2.1.3 回归模型填充
  • 3.2.1.4 EM填充
  • 3.2.2 多重填充(Multiple Imputation)
  • 3.2.2.1 预备知识
  • 3.2.2.2 多重填充基本思想
  • 3.2.2.3 MCMC填充模型基本原理
  • 3.3 不处理
  • 第四章 实证分析
  • 4.1 模型构建及研究思路
  • 4.2 不同缺失率数据集参数估计角度效果比较
  • 4.3 不同缺失率数据集拟合角度效果比较
  • 4.3.1 对真值的拟合角度比较
  • 4.3.2 对分布的拟合角度比较
  • 4.4 小结
  • 4.5 一类特殊高缺失率数据集填充效果比较
  • 总结与展望
  • 参考文献
  • 附录A
  • 攻读硕士学位期间取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].带有不可忽略缺失数据的联合均值与方差模型的贝叶斯估计[J]. 昆明理工大学学报(自然科学版) 2020(01)
    • [2].混合型缺失数据填补方法比较与应用[J]. 中国卫生统计 2020(03)
    • [3].任意阵列阵元缺损下的缺失数据恢复方法[J]. 通信技术 2020(09)
    • [4].缺失数据比率和处理方法对非随机缺失数据能力参数估计准确性的影响[J]. 江西师范大学学报(自然科学版) 2017(03)
    • [5].多组学联合缺失数据填补方法的评价[J]. 中国卫生统计 2017(04)
    • [6].海产品安全预警系统缺失数据填补方法[J]. 计算机工程与应用 2015(11)
    • [7].低压台区缺失数据的张量补全方法[J]. 中国电机工程学报 2020(22)
    • [8].大数据背景下缺失数据问题及对策[J]. 中国统计 2019(10)
    • [9].有缺失数据的条件独立正态母体中参数的最优同变估计[J]. 数学学报(中文版) 2016(06)
    • [10].一种效能评估中缺失数据的填充方法[J]. 上海交通大学学报 2017(02)
    • [11].网络高并发信息的缺失数据修复方法仿真[J]. 信息通信 2017(11)
    • [12].基于稀疏迭代协方差估计的缺失数据谱分析及时域重建方法[J]. 电子与信息学报 2016(06)
    • [13].一种基于双聚类的缺失数据填补方法[J]. 计算机应用研究 2015(03)
    • [14].图模型方法用于二值变量相关性分析中缺失数据的估计[J]. 中国卫生统计 2012(05)
    • [15].临床试验中缺失数据处理方法研究[J]. 中国临床药理学杂志 2019(22)
    • [16].观测站缺失数据修复的神经网络模型研究[J]. 矿山测量 2014(01)
    • [17].缺失数据统计处理方法的研究进展[J]. 中国卫生统计 2013(01)
    • [18].加权估计方程用于缺失数据的处理[J]. 中国卫生统计 2013(03)
    • [19].缺失数据调整修正优化磨光法研究及陶瓷中的应用[J]. 中国陶瓷 2012(06)
    • [20].基于缺失数据填补的辐射源识别方法[J]. 宇航学报 2010(05)
    • [21].缺失数据处理方法的比较[J]. 统计与决策 2010(24)
    • [22].有缺失数据的正态母体参数的后验分布及其抽样算法[J]. 应用数学学报 2009(02)
    • [23].代价敏感的缺失数据有序填充算法[J]. 计算机工程 2009(17)
    • [24].基于迭代自适应方法的跳频信号缺失数据恢复[J]. 电讯技术 2020(07)
    • [25].多视角数据缺失补全[J]. 软件学报 2018(04)
    • [26].基于改进的K近缺失数据补全[J]. 计算机与应用化学 2015(12)
    • [27].结构方程建模缺失数据填补方法研究[J]. 统计与咨询 2011(01)
    • [28].有序填充微阵列缺失数据[J]. 计算机工程与应用 2009(22)
    • [29].纵向缺失数据下高维部分线性回归模型的变量选择[J]. 杭州师范大学学报(自然科学版) 2020(03)
    • [30].基于特征权值的缺失数据修复方法[J]. 无线互联科技 2018(20)

    标签:;  ;  ;  ;  ;  

    缺失数据的填充方法研究及实证分析
    下载Doc文档

    猜你喜欢