基于本体的数据清洗系统框架研究

基于本体的数据清洗系统框架研究

论文摘要

随着数据库技术的飞速发展以及数据获取手段的多样化,数据资源日益丰富,数据量急剧增加。数据的价值在于其自身的质量,基于劣质数据的决策支持具有不可信性,目前数量巨大而且零乱的劣质数据成为制约数据应用的“瓶颈”。因此,作为数据质量问题的主要解决技术,数据清洗成为研究的热点。然而现有数据清洗技术的研究大多是从数据文本取值的层面进行清洗处理,往往忽略了数据自身蕴含的语义信息。因此,如何在现有数据清洗研究中引入语义特性成为该领域一个新的研究点。针对这一研究课题,本文主要开展了如下几个方面的研究工作:首先,基于信息化建设的背景,对数据质量问题和数据清洗问题进行了研究。通过对该领域在国内外研究现状的分析,归纳了现有数据清洗研究中存在的不足,并论证了利用本体及相关技术解决上述不足的可行性。其次,针对知识表示及其常规性的方法,本体及相关技术的研究进行了总结,作为支撑论文研究的理论基础。然后,基于本体提出了一个数据清洗系统框架。按照资源描述的特性,将系统框架划分为描述静态语义信息的本体表达模型和描述过程语义信息的动态处理模型,并分别给出了模型中各组成部分的形式化描述和主要模块在处理过程中的工作原理和实现机制。最后,在对课题研究中的两个语义模型进行分析介绍的基础上,设计并实现了基于本体的数据清洗系统框架,并使用UML对框架的静态结构设计和动态行为语义进行了建模,解决了现有数据清洗研究中缺乏语义约束和不能支持自动推理的问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题的选题背景
  • 1.2 数据质量与数据清洗
  • 1.2.1 数据质量问题的研究
  • 1.2.2 数据清洗内涵及原理
  • 1.3 研究现状及选题意义
  • 1.3.1 国内外研究现状
  • 1.3.2 本课题选题意义
  • 1.4 论文内容组织结构
  • 第二章 基于本体的数据清洗系统框架
  • 2.1 知识表示与本体
  • 2.1.1 知识的表示与分类
  • 2.1.2 本体的定义与分类
  • 2.1.3 本体原语和层次模型
  • 2.2 系统框架的整体描述
  • 2.2.1 系统框架的功能
  • 2.2.2 系统框架的结构
  • 2.2.3 系统框架的特点
  • 2.3 本章小结
  • 第三章 静态语义的本体表达研究
  • 3.1 本体表达模型
  • 3.2 模型的领域组件
  • 3.2.1 本体
  • 3.2.2 领域事实知识
  • 3.2.3 领域问题知识
  • 3.3 模型的规则描述组件
  • 3.3.1 知识映射规则
  • 3.3.2 数据清洗规则
  • 3.3.3 业务处理规则
  • 3.4 模型的任务-方法组件
  • 3.4.1 任务-方法的整体结构
  • 3.4.2 清洗任务的本体表达
  • 3.4.3 清洗方法的本体表达
  • 3.4.4 任务-方法知识的构建
  • 3.5 模型的功能特点
  • 3.6 本章小结
  • 第四章 过程语义的动态建模研究
  • 4.1 动态处理模型
  • 4.2 领域知识的约束处理
  • 4.2.1 领域知识的获取
  • 4.2.2 知识的约束处理
  • 4.3 基于本体的数据清洗
  • 4.3.1 目标驱动的任务匹配
  • 4.3.2 推理知识的精化集成
  • 4.3.3 任务-方法的加载与推理
  • 4.3.4 清洗方法的实例映射
  • 4.3.5 实例方法的执行分析
  • 4.4 清洗结果的验证与确认
  • 4.5 本章小结
  • 第五章 系统框架的设计与实现
  • 5.1 系统框架的设计原则
  • 5.2 系统框架的结构设计
  • 5.2.1 整体结构设计
  • 5.2.2 顶层描述元素
  • 5.2.3 领域描述元素
  • 5.2.4 任务方法结构
  • 5.2.5 系统操作结构
  • 5.3 系统框架的行为设计
  • 5.4 本章小结
  • 第六章 总结与未来工作
  • 6.1 论文总结
  • 6.2 未来工作
  • 参考文献
  • 致谢
  • 在学期间的研究成果
  • 附录
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于本体的数据清洗系统框架研究
    下载Doc文档

    猜你喜欢