论文摘要
随着数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。在建立数据仓库的过程中,需要从各种异构的数据源导入大量的数据。这些数据来源于不同的渠道导致相似重复记录增多,严重影响了数据利用率和决策质量。因此,相似重复记录的检测和清洗已经成为数据仓库、数据挖掘等领域的热点研究问题。本文详细阐述了数据清洗的相关理论,分析了数据清洗的必要性以及国内研究现状。重点针对海量数据中相似重复记录检测的原理、方法、评价标准以及基本流程进行了深入分析和总结。主要研究工作如下:(1)针对DBSCAN算法聚类时会把相似重复记录聚在较少的几个类中这一问题,通过在随机抽取的样本中引入动态随机函数不断调整密度半径找出最优的全局半径,改进了算法性能。(2)针对海量数据的相似重复记录检测问题,给出了基于熵特征优选分组聚类相似重复记录检测的方法。通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用改进的DBSCAN聚类算法进行相似重复记录的检测。实验表明此算法有较高的检测效率,但检测精度不够理想。(3)给出基于N-Gram的二次聚类方法,提高相似重复记录检测的精确度。首先对每个DBSCAN聚类产生的相似重复记录簇进行二次聚类,然后对每个簇中的记录进行两两分别互相比较,清除了不正确的相似重复记录,实验分析表明二次聚类方法有效地提高了检测精度。(4)搭建了一个基于多Agent的三层数据清洗系统模型。讨论了模型的通信和运行过程。这一模型弥补了传统数据清洗的缺陷和不足,而且分层管理不同任务的工作,在很大程度上提高了数据清洗的智能性和高效性,减少了人工的参与。
论文目录
相关论文文献
- [1].基于信息熵属性约简的相似重复记录检测方法[J]. 计算机与数字工程 2019(12)
- [2].一种相似重复记录检测算法的改进与应用[J]. 成都工业学院学报 2017(02)
- [3].基于模糊综合评判的相似重复记录清洗方法[J]. 北京信息科技大学学报(自然科学版) 2017(04)
- [4].基于二次模糊评判的相似重复记录检测方法[J]. 江苏师范大学学报(自然科学版) 2016(01)
- [5].融合修复代价的不一致关系数据中相似重复记录识别[J]. 现代计算机(专业版) 2015(17)
- [6].基于划分的海量数据相似重复记录检测[J]. 计算机系统应用 2019(03)
- [7].一种基于属性权值分组聚类的相似重复记录检测方法[J]. 宁波职业技术学院学报 2015(02)
- [8].大数据环境下的相似重复记录检测方法[J]. 武汉工程大学学报 2014(09)
- [9].大数据环境下一种高效的重复记录检测方法[J]. 洛阳师范学院学报 2014(11)
- [10].关于重复记录数据清理算法研究[J]. 信息技术与信息化 2013(04)
- [11].基于遗传神经网络的相似重复记录检测方法研究[J]. 舰船电子工程 2011(02)
- [12].一种有效检测汉语相似重复记录的方法[J]. 科技情报开发与经济 2011(21)
- [13].基于熵特征优选分组聚类的相似重复记录检测[J]. 传感器与微系统 2011(11)
- [14].大数据量的高效重复记录检测方法[J]. 华中科技大学学报(自然科学版) 2010(02)
- [15].基于内码序值聚类的相似重复记录检测方法[J]. 计算机应用研究 2010(03)
- [16].基于模糊综合评判的相似重复记录识别方法[J]. 计算机工程 2010(13)
- [17].数据仓库中重复记录清理算法研究[J]. 信息化纵横 2009(07)
- [18].一种在高维空间中聚类检测重复记录的新方法[J]. 计算机工程与应用 2008(29)
- [19].基于多目标蚁群优化的单类支持向量机相似重复记录检测[J]. 兵工学报 2020(02)
- [20].大型数据库重复记录检测与优化研究[J]. 现代电子技术 2020(17)
- [21].基于网格分组和属性权值的相似重复记录识别算法[J]. 青岛大学学报(自然科学版) 2017(02)
- [22].相似重复记录检测的特征优选策略探究[J]. 无线互联科技 2014(05)
- [23].检测大型数据库中汉语相似重复记录的方法[J]. 内蒙古科技与经济 2011(14)
- [24].基于数据分组匹配的相似重复记录检测[J]. 计算机工程 2010(12)
- [25].相似重复记录清理方法研究综述[J]. 现代图书情报技术 2010(09)
- [26].移动网络相似信息重复记录智能检测仿真[J]. 计算机仿真 2019(02)
- [27].一种针对关系数据库记录的相似重复记录检测算法[J]. 电脑知识与技术 2018(13)
- [28].基于R-树索引的高维相似重复记录检测改进算法[J]. 微电子学与计算机 2017(09)
- [29].一种改进的相似重复记录检测算法[J]. 计算机应用与软件 2014(01)
- [30].海量数据的相似重复记录检测算法[J]. 计算机应用 2013(08)