多元线性回归模型中缺失数据填补方法的效果比较

多元线性回归模型中缺失数据填补方法的效果比较

论文摘要

数据缺失是一个在当代许多进行的实验研究和调查研究领域中普遍存在的问题。缺失数据会增加分析任务的复杂性,造成结果的偏倚,降低统计工作的效率。尤其是在完全观测与不完全观测之间存在系统差异的情况下,运用常规统计方法对不完整数据集所做出的结果,是不能代替整体的。传统的替换缺失数据的方法存在严重的局限性。而数据处理技术的新发展使运用更为先进的方法成为可能。本文就是针对缺失数据的填补这一内容展开的,通过估计参数的相对误差大小比较了四种目前比较有前景的缺失数据处理方法的效果。文章的研究重点是多元线性回归模型,研究包括七种缺失程度的数据(5%,15%,25%,35%,45%,55%和65%的完全随机缺失)。四种用于比较的缺失数据处理的方法是均值填补法(Mean)、期望值最大化法(EM)、回归填补法(Regression)和多重填补法(MI)。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 关于缺失问题的研究情况
  • 1.2.1 国外的研究情况
  • 1.2.2 中国大陆的研究情况
  • 1.2.3 中国台湾的研究情况
  • 1.3 本文思路及结构安排
  • 第二章 缺失数据产生的原因及其分类
  • 2.1 缺失数据的概念
  • 2.2 缺失数据产生的原因
  • 2.3 缺失数据的分类
  • 2.3.1 按照数据缺失机制分类
  • 2.3.2 按照数据缺失的模式分类
  • 第三章 缺失数据填补方法的讨论
  • 3.1 缺失数据填补方法的概述
  • 3.2 缺失数据填补的准则
  • 3.3 缺失数据的处理方法
  • 3.3.1 删除含有缺失数据的个案
  • 3.3.2 可能值填补缺失数据
  • 3.3.2.1 简单填补
  • 3.3.2.2 多重填补法
  • 3.3.2.3 MCMC法
  • 3.3.2.4 简单填补与多重填补的比较
  • 第四章 多元线性回归模型中的缺失数据填补方法的效果比较
  • 4.1 模型研究思路与内容
  • 4.2 模型的构建及分析
  • 4.2.1 完整数据集的分析
  • 4.2.2 各种不同缺失率的数据集的分析
  • 4.2.2.1 缺失率为5%的缺失数据集的分析
  • 4.2.2.2 缺失率为15%的缺失数据集的分析
  • 4.2.2.3 缺失率为25%的缺失数据集的分析
  • 4.2.2.4 缺失率为35%的缺失数据集的分析
  • 4.2.2.5 缺失率为45%的缺失数据集的分析
  • 4.2.2.6 缺失率为55%的缺失数据集的分析
  • 4.2.2.7 缺失率为65%的缺失数据集的分析
  • 4.2.3 结果分析
  • 第五章 模型展望与结论
  • 结束语
  • 参考文献
  • 致谢
  • 攻读学位期间的主要研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    多元线性回归模型中缺失数据填补方法的效果比较
    下载Doc文档

    猜你喜欢