基于贝叶斯方法的缺失数据补全研究

基于贝叶斯方法的缺失数据补全研究

论文摘要

随着信息技术的高速发展和人们获得数据途径的多样化,企业积累的数据飞速激增。由于这些数据里面隐含着很多有用的信息,可以通过数据挖掘来进一步的分析和充分的利用。但是很多的研究方法和模型都是基于理想的而非现实的数据集。各种原因导致了我们收集的数据存在很多质量问题,其中较为棘手的为数据缺失的问题。目前国内外的缺失数据的补全方法主要有以下几种:删除法、常量补全法、统计学补全法、简单值补全法和复杂估算值补全法。其中复杂值补全法因其最大程度上利用了当前已知数据,帮助预测缺失数据,从而获得了较好的补全精度。本文着重研究了复杂值补全法中广泛应用的朴素贝叶斯补全缺失数据的方法。但是朴素贝叶斯方法因对数据属性间做了独立假设,摈弃了数据属性间的关联性,导致了预测值不准确,形成了误差。本文针对朴素贝叶斯方法在数据补全方面固有的缺点,对其进行了改进,提出了含有修正因子的双尺度贝叶斯公式,并从理论上分析了双尺度贝叶斯公式可以很好的适应一般属性间的三种关联形式。双尺度贝叶斯算法主要针对分类数据,利用缺失属性值的后验概率和修正因子对缺失数据进行预测,然后使用最大概率填充MaxPost和概率分布填充PropPost进行具体的数据补全。最后本文选用了UCI的4个不同领域不同大小的实验数据集,进行了实验验证。实验通过三个评价指标验证了本文提出的双尺度贝叶斯补全方法比朴素贝叶斯补全方法更加准确和有效。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 课题研究的背景和意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 国内外研究现状
  • 1.3 本文的研究目的和研究内容
  • 1.3.1 研究目的
  • 1.3.2 研究内容
  • 1.4 论文的结构安排
  • 2 缺失数据补全方法的介绍
  • 2.1 缺失数据的定义
  • 2.2 缺失数据的产生
  • 2.3 缺失数据的处理方法
  • 2.3.1 删除法
  • 2.3.2 常量补全法
  • 2.3.3 统计学补全法
  • 2.3.4 简单值补全法
  • 2.3.5 复杂估算值补全法
  • 2.4 本章小结
  • 3 贝叶斯理论用于数据补全
  • 3.1 现代贝叶斯理论的发展
  • 3.2 贝叶斯理论的原理和模型
  • 3.2.1 贝叶斯定理相关概念
  • 3.2.2 一般贝叶斯模型
  • 3.2.3 朴素贝叶斯模型
  • 3.2.4 半朴素贝叶斯模型
  • 3.3 朴素贝叶斯理论用于数据补全
  • 3.4 本章小结
  • 4 一种基于贝叶斯理论的新数据补全方法
  • 4.1 问题的提出
  • 4.1.1 属性间完全独立
  • 4.1.2 属性间极强关联
  • 4.1.3 属性间既存在独立又存在关联
  • 4.1.4 面临的问题
  • 4.2 双尺度贝叶斯预测公式
  • 4.2.1 双尺度贝叶斯公式定义
  • 4.2.2 双尺度贝叶斯公式分析
  • 4.3 双尺度贝叶斯预测算法
  • 4.3.1 算法概要
  • 4.3.2 算法分析
  • 4.3.3 填充方法
  • 4.4 算法实验及结果分析
  • 4.4.1 实验运行环境
  • 4.4.2 实验数据来源
  • 4.4.3 补全方法对比
  • 4.4.4 匹配准确率
  • 4.4.5 均方根误差RMSE
  • 4.4.6 错误率E
  • 4.5 本章总结
  • 5 总结及展望
  • 5.1 本文总结
  • 5.2 本文展望
  • 致谢
  • 参考文献
  • 附录
  • A.作者在硕士学位期间发表的学术论文
  • B.作者在攻读学位期间参加的科研项目
  • 相关论文文献

    • [1].贝叶斯方法在篮子试验设计中的应用[J]. 中国卫生统计 2020(03)
    • [2].主观贝叶斯方法在列车占用丢失报警原因分析中的应用[J]. 铁路计算机应用 2014(12)
    • [3].基于贝叶斯方法的比例数据分位数推断及其应用[J]. 散文百家(新语文活页) 2017(01)
    • [4].贝叶斯方法在数据挖掘中的应用进展[J]. 科技致富向导 2014(14)
    • [5].贝叶斯网络推理与学习方法研究[J]. 信息记录材料 2019(06)
    • [6].风险分析中的稳健贝叶斯方法[J]. 内蒙古财经学院学报 2011(04)
    • [7].贝叶斯方法在污水处理收费研究中的应用[J]. 统计教育 2009(03)
    • [8].基于贝叶斯方法的不确定性信息处理研究进展综述[J]. 机电产品开发与创新 2018(06)
    • [9].基于超级贝叶斯方法的专家意见先验概率修正研究[J]. 统计与决策 2013(01)
    • [10].稳健贝叶斯方法在指数保费原理下的应用[J]. 西南大学学报(自然科学版) 2016(03)
    • [11].论贝叶斯方法在计算机智能化中的应用[J]. 中小企业管理与科技(下旬刊) 2011(05)
    • [12].基于贝叶斯方法的事件推理[J]. 科技信息 2010(33)
    • [13].基于主观贝叶斯方法的装备故障概率分析[J]. 国防技术基础 2009(02)
    • [14].基于贝叶斯方法的蒙古栎林单木树高-胸径模型[J]. 南京林业大学学报(自然科学版) 2020(01)
    • [15].一类敏感问题的广义贝叶斯方法[J]. 数学学习与研究 2020(04)
    • [16].一个基于贝叶斯方法的冬态树木分类系统的设计与实现[J]. 计算机应用与软件 2009(05)
    • [17].浅谈风险决策中的贝叶斯方法[J]. 科技信息 2008(33)
    • [18].基于属性序的贝叶斯网结构快速学习方法[J]. 计算机工程与设计 2018(09)
    • [19].基于经典贝叶斯方法的滤波模型参数估计[J]. 系统仿真学报 2008(23)
    • [20].数学之美:神奇的贝叶斯方法[J]. 中国新通信 2018(08)
    • [21].基于贝叶斯网络推理的油气成藏模式分析[J]. 现代企业 2018(10)
    • [22].边坡稳定不确定性分析的贝叶斯方法[J]. 河南城建学院学报 2013(05)
    • [23].基于贝叶斯方法对乳腺癌进行计算机辅助预测[J]. 中国医学工程 2011(02)
    • [24].家畜全基因组选择中的单步贝叶斯方法[J]. 基因组学与应用生物学 2016(10)
    • [25].贝叶斯优化方法和应用综述[J]. 软件学报 2018(10)
    • [26].基于贝叶斯方法的高鲁棒性故障检测技术[J]. 湖北大学学报(自然科学版) 2015(06)
    • [27].基于贝叶斯方法的深层充电效应风险模型评估[J]. 地球物理学报 2019(06)
    • [28].时间域航空电磁数据变维数贝叶斯反演[J]. Applied Geophysics 2018(02)
    • [29].基于贝叶斯方法分析蒸汽管网保温层损坏问题[J]. 区域供热 2016(05)
    • [30].基于多元化贝叶斯方法的信用评级研究[J]. 大庆师范学院学报 2020(06)

    标签:;  ;  ;  ;  

    基于贝叶斯方法的缺失数据补全研究
    下载Doc文档

    猜你喜欢