基于特征优选的数据清洗方法研究

基于特征优选的数据清洗方法研究

论文摘要

现在的社会已经进入了信息时代,正确的决策已成为企业成败的关键。为此很多企业纷纷建立自己的数据仓库,为进一步挖掘数据信息作准备,为企业决策提供有用信息。数据仓库的数据一般来自于多个相对独立的业务系统,由于数据录入错误、语义表示不一致、拼写错误等原因,数据仓库中的原始数据往往存在很多问题,这将直接影响决策的正确性,所以必须对原始数据进行清洗。而数据清洗的一个关键环节就是相似重复记录的检测,数据库中的相似重复记录指的是那些客观上表示现实世界同一实体,但由于在格式和拼写上有差异而导致数据库管理系统不能正确识别的记录。本文首先阐述了论文的研究背景及意义,介绍了数据清洗的国内外研究现状,数据清洗的相关概念及数据清洗的必要性,并论述了数据清洗的原理,数据清洗基本流程以及数据清洗方法,分析研究了重复记录清洗技术及预处理技术。重点对相似重复记录检测方法做了深入研究,提出一种基于属性特征优选的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的区位码,利用分组思想将大数据集分割成多个小数据集;再根据属性特征优选算法在各个小数据集中进行属性优选,选出具有代表性的属性;最后根据属性权重,利用字段匹配技术对相似重复记录进行检测,为避免关键字选择不当而造成记录漏查问题,引入多趟检测技术。实验表明该方法具有较好的检测精度和时间效率。在分析和研究了多种清洗算法和清洗系统框架的基础上,本文提出了一种数据清洗系统框架,并且对框架中各模块的功能及清洗流程进行详细描述。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究的背景及意义
  • 1.2 数据清洗现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 数据清洗存在的问题
  • 1.4 数据清洗的必要性
  • 1.5 本文的研究内容与章节安排
  • 1.6 本章小结
  • 第二章 数据清洗关键技术介绍
  • 2.1 数据清洗定义
  • 2.2 数据清洗的原理及方法
  • 2.2.1 数据清洗原理
  • 2.2.2 数据清洗方法
  • 2.3 数据清洗基本流程
  • 2.4 数据清洗的评价标准
  • 2.5 预处理技术
  • 2.5.1 属性选择
  • 2.5.2 初步聚类
  • 2.5.3 分配属性权值
  • 2.6 本章小结
  • 第三章 数据清洗算法研究
  • 3.1 异常记录检测算法
  • 3.1.1 统计学算法
  • 3.1.2 关联规则
  • 3.1.3 聚类算法
  • 3.1.4 算法分析
  • 3.2 重复记录清洗算法
  • 3.2.1 重复记录的定义
  • 3.2.2 重复记录匹配算法
  • 3.2.3 重复记录检测算法
  • 3.2.4 衡量重复记录清洗算法效率的度量标准
  • 3.3 本章小结
  • 第四章 基于特征优选的相似重复记录检测方法与实现
  • 4.1 数据清洗系统框架
  • 4.1.1 系统功能模块分析
  • 4.1.2 系统清洗流程
  • 4.2 相似重复记录清洗方法及实现
  • 4.2.1 总体算法思想
  • 4.2.2 计算汉字区位码
  • 4.2.3 记录分组算法
  • 4.2.4 特征优选方法
  • 4.2.5 相似重复记录的检测
  • 4.3 本章小结
  • 第五章 实验结果及分析
  • 5.1 查准率和查全率对比
  • 5.2 运行时间对比
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 全文总结
  • 6.2 工作展望
  • 致谢
  • 参考文献
  • 附录A 攻读学位期间发表论文
  • 相关论文文献

    • [1].基于信息熵属性约简的相似重复记录检测方法[J]. 计算机与数字工程 2019(12)
    • [2].一种相似重复记录检测算法的改进与应用[J]. 成都工业学院学报 2017(02)
    • [3].基于模糊综合评判的相似重复记录清洗方法[J]. 北京信息科技大学学报(自然科学版) 2017(04)
    • [4].基于二次模糊评判的相似重复记录检测方法[J]. 江苏师范大学学报(自然科学版) 2016(01)
    • [5].融合修复代价的不一致关系数据中相似重复记录识别[J]. 现代计算机(专业版) 2015(17)
    • [6].基于划分的海量数据相似重复记录检测[J]. 计算机系统应用 2019(03)
    • [7].一种基于属性权值分组聚类的相似重复记录检测方法[J]. 宁波职业技术学院学报 2015(02)
    • [8].大数据环境下的相似重复记录检测方法[J]. 武汉工程大学学报 2014(09)
    • [9].大数据环境下一种高效的重复记录检测方法[J]. 洛阳师范学院学报 2014(11)
    • [10].关于重复记录数据清理算法研究[J]. 信息技术与信息化 2013(04)
    • [11].基于遗传神经网络的相似重复记录检测方法研究[J]. 舰船电子工程 2011(02)
    • [12].一种有效检测汉语相似重复记录的方法[J]. 科技情报开发与经济 2011(21)
    • [13].基于熵特征优选分组聚类的相似重复记录检测[J]. 传感器与微系统 2011(11)
    • [14].大数据量的高效重复记录检测方法[J]. 华中科技大学学报(自然科学版) 2010(02)
    • [15].基于内码序值聚类的相似重复记录检测方法[J]. 计算机应用研究 2010(03)
    • [16].基于模糊综合评判的相似重复记录识别方法[J]. 计算机工程 2010(13)
    • [17].数据仓库中重复记录清理算法研究[J]. 信息化纵横 2009(07)
    • [18].一种在高维空间中聚类检测重复记录的新方法[J]. 计算机工程与应用 2008(29)
    • [19].基于多目标蚁群优化的单类支持向量机相似重复记录检测[J]. 兵工学报 2020(02)
    • [20].大型数据库重复记录检测与优化研究[J]. 现代电子技术 2020(17)
    • [21].基于网格分组和属性权值的相似重复记录识别算法[J]. 青岛大学学报(自然科学版) 2017(02)
    • [22].相似重复记录检测的特征优选策略探究[J]. 无线互联科技 2014(05)
    • [23].检测大型数据库中汉语相似重复记录的方法[J]. 内蒙古科技与经济 2011(14)
    • [24].基于数据分组匹配的相似重复记录检测[J]. 计算机工程 2010(12)
    • [25].相似重复记录清理方法研究综述[J]. 现代图书情报技术 2010(09)
    • [26].移动网络相似信息重复记录智能检测仿真[J]. 计算机仿真 2019(02)
    • [27].一种针对关系数据库记录的相似重复记录检测算法[J]. 电脑知识与技术 2018(13)
    • [28].基于R-树索引的高维相似重复记录检测改进算法[J]. 微电子学与计算机 2017(09)
    • [29].一种改进的相似重复记录检测算法[J]. 计算机应用与软件 2014(01)
    • [30].海量数据的相似重复记录检测算法[J]. 计算机应用 2013(08)

    标签:;  ;  ;  ;  ;  

    基于特征优选的数据清洗方法研究
    下载Doc文档

    猜你喜欢