论文题目: 缺失值处理统计方法的模拟比较研究及应用
论文类型: 硕士论文
论文专业: 流行病与卫生统计学
作者: 茅群霞
导师: 李晓松
关键词: 缺失值,填补方法,模拟技术,多重填补法,马尔可夫,链蒙特卡罗法
文献来源: 四川大学
发表年度: 2005
论文摘要: 目的 通过数据模拟技术比较MI和其它缺失值填补方法的优劣,探讨各自的适用性。将适用于本研究资料的填补方法应用于缺失值填补,为进一步的数据分析及相关因素研究奠定基础。 方法 横断面资料单调缺失模式连续变量的处理:采用Ad hoc法和条件均数填补法(conditional mean imputation)进行处理,并采用MI中的趋势得分法(propensity score,PS)和预测均数匹配法(predictive mean matching,PMM)进行填补并做比较。横断面资料单调缺失模式分类变量的处理:采用Ad hoc法和MI中的logistic回归方法进行处理并做比较。横断面资料任意缺失模式连续变量的处理:采用Ad hoc方法处理并与MI中的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法填补结果进行比较。纵向资料缺失数据的处理:采用Ad hoc方法、LOCF法处理并与MI方法中的MCMC模型填补结果进行比较。最后,采用MI中的MCMC模型进行了实例应用。 结果 当数据缺失率低于10%时,用Ad hoc方法即可处理;横断面单调缺失数据缺失率低于20%时,条件均数填补法结果较优;纵向数据缺失率低于20%时,LOCF填补结果较优;当数据缺失超过20%时,MI填补效果较优;其中,当分类变量缺失率超过40%时MI填补无效;对于横断面连续变量,缺失率不超过60%时,MI结果较优;而对于纵向资料连续变量的处理,MI的优势范围相对狭窄,缺失率在20%~40%。不管是横断面资料还是纵向
论文目录:
Ⅰ 中文摘要
Ⅱ 英文摘要
1 前言
1.1 研究背景
1.2 研究目的
2 缺失值分类
(1) 缺失机制
1) 完全随机缺失
2) 随机缺失
3) 不可忽略缺失
(2) 缺失模式
1) 单调缺失
2) 任意缺失
3 模拟研究思路与内容
4 缺失值处理方法及模拟结果
4.1 横断面资料单调缺失模式连续变量
4.1.1 单变量缺失
4.1.1.1 缺失值处理方法基本原理
AD HOC法
均数填补法
多重填补趋势得分法
4.1.1.2 模型构建
4.1.1.3 结果
4.1.1.4 讨论
4.1.2 多变量缺失
4.1.2.1 多重填补回归模型基本原理
4.1.2.2 多重填补预测均数匹配法基本原理
4.1.2.3 模型构建
4.1.2.4 结果
4.1.2.5 讨论
4.2 横断面资料单变量单调缺失模式分类变量
4.2.1 多重填补LOGISTIC回归基本原理
4.2.2 多重填补判别分析基本原理
4.2.3 模型构建
4.2.5 结果
4.2.5 讨论
4.3 横断面资料任意缺失模式连续变量
4.3.1 多重填补马尔可夫链蒙特卡罗模型基本原理
4.3.3 模型构建
4.3.5 结果
4.3.5 讨论
4.4 纵向资料连续变量
4.4.1 单变量缺失模型
4.4.1.1 LOCF填补法
4.4.1.2 模型构建
4.4.1.3 结果
4.4.1.4 讨论
4.4.2 多个变量缺失模型
4.4.2.1 模型构建
4.4.2.2 结果
4.4.2.3 讨论
5 多重填补法在妇幼卫生调查资料中的应用
5.1 资料的缺失情况
5.3 方法与原理
5.4 结果与分析
5.5 讨论与小结
6 讨论与总结
6.1 讨论
6.2 主要研究特色
7 参考文献
8 文献综述
9 参考文献
10 附录:就读期间发表的学术论文
致谢
声明
发布时间: 2005-11-09
参考文献
- [1].不完全数据的处理方法及其在医学研究中的应用[D]. 李树威.重庆医科大学2014
- [2].多重填补处理临床试验中平行组设计与2×2交叉设计缺失值问题的计算机模拟[D]. 李清华.第四军医大学2005
相关论文
- [1].基于统计学习的数据预处理缺失值清洗方法研究[D]. 曹林.哈尔滨工程大学2012
- [2].缺失数据的处理方法研究及应用[D]. 杨利华.景德镇陶瓷学院2011
- [3].残缺数据的填补[D]. 张成萍.中南大学2006