论文摘要
数据缺失是一个在当代许多进行的实验研究和调查研究领域中普遍存在的问题。缺失数据会增加分析任务的复杂性,造成结果的偏倚,降低统计工作的效率。尤其是在完全观测与不完全观测之间存在系统差异的情况下,运用常规统计方法对不完整数据集所做出的结果,是不能代替整体的。传统的替换缺失数据的方法存在严重的局限性。而数据处理技术的新发展使运用更为先进的方法成为可能。本文就是针对缺失数据的填补这一内容展开的,通过估计参数的相对误差大小比较了四种目前比较有前景的缺失数据处理方法的效果。文章的研究重点是多元线性回归模型,研究包括七种缺失程度的数据(5%,15%,25%,35%,45%,55%和65%的完全随机缺失)。四种用于比较的缺失数据处理的方法是均值填补法(Mean)、期望值最大化法(EM)、回归填补法(Regression)和多重填补法(MI)。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 关于缺失问题的研究情况1.2.1 国外的研究情况1.2.2 中国大陆的研究情况1.2.3 中国台湾的研究情况1.3 本文思路及结构安排第二章 缺失数据产生的原因及其分类2.1 缺失数据的概念2.2 缺失数据产生的原因2.3 缺失数据的分类2.3.1 按照数据缺失机制分类2.3.2 按照数据缺失的模式分类第三章 缺失数据填补方法的讨论3.1 缺失数据填补方法的概述3.2 缺失数据填补的准则3.3 缺失数据的处理方法3.3.1 删除含有缺失数据的个案3.3.2 可能值填补缺失数据3.3.2.1 简单填补3.3.2.2 多重填补法3.3.2.3 MCMC法3.3.2.4 简单填补与多重填补的比较第四章 多元线性回归模型中的缺失数据填补方法的效果比较4.1 模型研究思路与内容4.2 模型的构建及分析4.2.1 完整数据集的分析4.2.2 各种不同缺失率的数据集的分析4.2.2.1 缺失率为5%的缺失数据集的分析4.2.2.2 缺失率为15%的缺失数据集的分析4.2.2.3 缺失率为25%的缺失数据集的分析4.2.2.4 缺失率为35%的缺失数据集的分析4.2.2.5 缺失率为45%的缺失数据集的分析4.2.2.6 缺失率为55%的缺失数据集的分析4.2.2.7 缺失率为65%的缺失数据集的分析4.2.3 结果分析第五章 模型展望与结论结束语参考文献致谢攻读学位期间的主要研究成果
相关论文文献
标签:缺失数据论文; 均值填补法论文; 期望值最大化法论文; 回归填补法论文; 多重填补法论文;