论文摘要
随着数据库技术的飞速发展以及数据获取手段的多样化,数据资源日益丰富,数据量急剧增加。数据的价值在于其自身的质量,基于劣质数据的决策支持具有不可信性,目前数量巨大而且零乱的劣质数据成为制约数据应用的“瓶颈”。因此,作为数据质量问题的主要解决技术,数据清洗成为研究的热点。然而现有数据清洗技术的研究大多是从数据文本取值的层面进行清洗处理,往往忽略了数据自身蕴含的语义信息。因此,如何在现有数据清洗研究中引入语义特性成为该领域一个新的研究点。针对这一研究课题,本文主要开展了如下几个方面的研究工作:首先,基于信息化建设的背景,对数据质量问题和数据清洗问题进行了研究。通过对该领域在国内外研究现状的分析,归纳了现有数据清洗研究中存在的不足,并论证了利用本体及相关技术解决上述不足的可行性。其次,针对知识表示及其常规性的方法,本体及相关技术的研究进行了总结,作为支撑论文研究的理论基础。然后,基于本体提出了一个数据清洗系统框架。按照资源描述的特性,将系统框架划分为描述静态语义信息的本体表达模型和描述过程语义信息的动态处理模型,并分别给出了模型中各组成部分的形式化描述和主要模块在处理过程中的工作原理和实现机制。最后,在对课题研究中的两个语义模型进行分析介绍的基础上,设计并实现了基于本体的数据清洗系统框架,并使用UML对框架的静态结构设计和动态行为语义进行了建模,解决了现有数据清洗研究中缺乏语义约束和不能支持自动推理的问题。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题的选题背景1.2 数据质量与数据清洗1.2.1 数据质量问题的研究1.2.2 数据清洗内涵及原理1.3 研究现状及选题意义1.3.1 国内外研究现状1.3.2 本课题选题意义1.4 论文内容组织结构第二章 基于本体的数据清洗系统框架2.1 知识表示与本体2.1.1 知识的表示与分类2.1.2 本体的定义与分类2.1.3 本体原语和层次模型2.2 系统框架的整体描述2.2.1 系统框架的功能2.2.2 系统框架的结构2.2.3 系统框架的特点2.3 本章小结第三章 静态语义的本体表达研究3.1 本体表达模型3.2 模型的领域组件3.2.1 本体3.2.2 领域事实知识3.2.3 领域问题知识3.3 模型的规则描述组件3.3.1 知识映射规则3.3.2 数据清洗规则3.3.3 业务处理规则3.4 模型的任务-方法组件3.4.1 任务-方法的整体结构3.4.2 清洗任务的本体表达3.4.3 清洗方法的本体表达3.4.4 任务-方法知识的构建3.5 模型的功能特点3.6 本章小结第四章 过程语义的动态建模研究4.1 动态处理模型4.2 领域知识的约束处理4.2.1 领域知识的获取4.2.2 知识的约束处理4.3 基于本体的数据清洗4.3.1 目标驱动的任务匹配4.3.2 推理知识的精化集成4.3.3 任务-方法的加载与推理4.3.4 清洗方法的实例映射4.3.5 实例方法的执行分析4.4 清洗结果的验证与确认4.5 本章小结第五章 系统框架的设计与实现5.1 系统框架的设计原则5.2 系统框架的结构设计5.2.1 整体结构设计5.2.2 顶层描述元素5.2.3 领域描述元素5.2.4 任务方法结构5.2.5 系统操作结构5.3 系统框架的行为设计5.4 本章小结第六章 总结与未来工作6.1 论文总结6.2 未来工作参考文献致谢在学期间的研究成果附录
相关论文文献
标签:数据质量论文; 数据清洗论文; 本体论文; 清洗规则论文; 任务结构论文; 系统框架论文;