论文摘要
重复数据的出现会给数据质量带来极大的困扰,严重影响着数据处理和分析的效率,如何对重复数据进行清理是数据处理研究的重要问题。然而,随着数据的急剧增长,数据源的多样性,同名、多词一义等歧义实体的出现,关联数据的大量涌现给现有的重复数据清理方法带来了挑战。现有的重复数据清理方法存在着检测结果不全面,对歧义实体的检测精确度不高,检测时间花费长,计算复杂性高等问题。因此,重复数据的清理研究需从重复数据检测结果的全面、准确、高效等方面展开。这三个方面在一定程度上相互制约,一味追求高的查全率会影响查准率,一味追求高效也会对查全查准产生影响。如何使这三个方面达到一个平衡点,是重复数据检测研究的重点。基于语义关联的重复数据清理,是通过数据之间的语义关系来检测数据之间的重复性、区分模糊信息、过滤掉不相干的数据,解决去重问题中大规模数据比较带来检测效率问题。针对数据源的多样性、数据记录之间的差异对重复数据检测的查全的影响,提出一种基于长度过滤动态权值的数据比较方法。该方法首先针对重复数据检测的两两数据对的比较的计算量大的问题,在数据对比较前,根据数据对的长度差,过滤掉不可能是重复数据的数据对。减少参加数据比对的数据对的个数,以提高检测的效率。然后针对不同数据源之间数据记录的差异影响检测的查全问题,动态的为记录各属性赋权值,减少记录之间因属性缺省对相似度计算的影响,提高重复检测查全率。最后对现有的检测方法对查全的问题进行了改进,提出一种基于动态滑动窗口的数据比较策略。该策略以动态的滑动窗口来控制数据与其它数据比较,进一步提高重复数据的查全率。该方法平均查全率,查全率和查准率调合平均值,均高于现有的检测方法,在提高查全率的同时,没有降低检测的查准率。针对重名、多词一义等歧义实体给重复数据检测带来的影响,提高重复数据清理的准确性的问题,提出一种基于语义关联的实体识别方法。该方法跳出实体数据本身的比较,通过分析实体之间不同类别的语义关联与其作用,并利用实体之间的两种类别的语义关联—相似语义关联和关联语义关联,将歧义实体进行聚类和合并处理,以达到消除实体歧义模糊问题的目的。针对数据量的急剧增加影响重复数据检测效率的问题,为了更进一步的提高在大规模异构数据整合中而产生的重复数据的检测的效率,提出一种“最可能重复”的数据集划分思想,该思想将最可能是重复的数据划分在一个部分里,以减小重复数据检测的范围。基于此思想结合数据的语义链网络提出一种基于语义关联的数据清理策略。该策略利用数据之间的语义链关系的分析和推理,将最可能是重复数据的数据聚类在同一部分中,以达到减小数据比较次数和提高检测精度,提高检测效率的目的。该方法在提高检测效率的同时,查全查准率的调合平均值高于现有的重复数据检测方法。提高效率的同时,没有对检测的查全查准率带来影响。随着语义网技术的发展,关联图数据的大量出现也带来了新的挑战。针对关联数据中存在的重复数据清理的问题,提出一种K-半径子图比较方法。该方法针对关联数据间的错综复杂的关系,提出一种关联层次图模型。该模型可以将关联数据之间复杂的关系在简单图中进行清楚的表达,并可以在关联数据中进行无缝转换。并在此模型上,通过对相似节点的“语义上下文”信息的比较,来对数据是否为重复进行判定。从而避免关联图数据中的数据的歧义模糊问题,以提高关联图数据中数据检测的效率。
论文目录
相关论文文献
- [1].基于自回归模型的嵌入式系统劣质数据清理方法[J]. 信息记录材料 2019(11)
- [2].临床研究数据清理经验和实例[J]. 中国循环杂志 2018(08)
- [3].微观妙论[J]. 科学之友(上半月) 2019(02)
- [4].不动产数据整合技术路线及相关问题解决措施研究[J]. 科技创新导报 2019(33)
- [5].电网规划基础数据清理分析方法[J]. 办公自动化 2015(01)
- [6].河南:通信管理局全面启动空壳类备案数据清理工作[J]. 中国信息安全 2011(02)
- [7].RFID网络数据清理技术的实践分析[J]. 信息通信 2012(01)
- [8].对我国企业数据清理的研究[J]. 企业技术开发 2011(20)
- [9].Oracle Timesten内存数据库自动数据清理机制探究[J]. 电脑知识与技术 2010(35)
- [10].轻舟巧过万重山[J]. 华北电业 2010(01)
- [11].大型数据中心数据清理的策略与方法[J]. 中国金融电脑 2011(09)
- [12].重庆:数据清理整合保“金质”[J]. 信息化建设 2014(01)
- [13].新手需注意的十个损害CRM系统数据的操作[J]. 计算机与网络 2011(12)
- [14].崇州市社保局扎实开展退休人员数据清理[J]. 四川劳动保障 2015(09)
- [15].浅析企业数据清理[J]. 通讯世界 2015(04)
- [16].不动产统一登记历史数据清理整合浅谈[J]. 四川档案 2015(04)
- [17].浅谈OA系统的数据清理[J]. 中国管理信息化 2013(09)
- [18].全国无线电台站数据清理登记工作总结(摘编)[J]. 中国无线电 2009(11)
- [19].资源采购价格数据清理在企业中的作用[J]. 化工管理 2018(11)
- [20].一种Web使用挖掘数据清理方法[J]. 四川大学学报(工程科学版) 2014(S1)
- [21].不动产登记中土地房屋数据清理整合技术研究[J]. 科技创新导报 2018(22)
- [22].数据挖掘中的数据清理技术概述[J]. 河南科技 2018(20)
- [23].从财务角度探讨ERP实施过程中数据清理[J]. 中国乡镇企业会计 2013(04)
- [24].实用的数据收集与清理模型的研究与应用[J]. 计算机系统应用 2009(10)
- [25].浅析数据清洗[J]. 计算机光盘软件与应用 2013(11)
- [26].基于云模型的电能质量可疑数据清理方法[J]. 华东电力 2013(08)
- [27].SAP ECC物资数据清理后的BW调整[J]. 信息与电脑(理论版) 2015(11)
- [28].基于SSIS的图书借阅数据清理与加载[J]. 科技资讯 2011(25)
- [29].脱贫攻坚实施阶段首战告捷 干在实处 变大水漫灌为精准滴灌[J]. 祖国 2017(18)
- [30].重庆市城镇地房籍系统建设与应用[J]. 国土资源信息化 2013(04)
标签:语义关联论文; 重复数据清理论文; 名字歧义消除论文; 实体识别论文; 语义上下文论文; 关联图数据清理论文; 半径子图比较论文;