面向半结构化数据的数据质量控制系统的研究与实现

面向半结构化数据的数据质量控制系统的研究与实现

论文摘要

随着信息处理技术的不断发展,各行各业都已经建立起了很多的计算机信息系统,积累了大量的历史数据,这些历史数据非常重要的。为了使数据能够有效地支持企业的日常运作和决策,就需要这些数据可靠无误,能够准确地反映现实世界的状况。纠正数据错误是避免错误决策、降低决策风险的重要环节,所以数据质量控制对于数据管理来说是必不可少的。以往的数据质量控制方面的研究绝大多数都是关注在数据库中的这种结构化的数据,然而由于客观因素,半结构化的文本数据却是企业保存历史数据的重要格式。针对上面的问题,本文对半结构化数据的数据质量控制进行了深入研究,并且设计实现了面向半结构化数据的数据质量控制系统。首先,对现有的数据质量控制相关研究进行了详细的分析,然后分析描述了半结构化数据的特点,根据其特点建立了面向半结构化数据的数据质量控制模型。该模型实现了半结构化数据的质量检测、问题数据处理以及数据质量评估功能,提出了该模型对半结构化类型数据的抽象方法,很好的解决了半结构化数据的异构问题。然后,详细介绍了该模型对不完整数据、不一致数据和错误数据三种类型问题数据的处理方法。针对不完整数据问题,本文在传统的不完整数据检测算法的基础上,按照字段在记录中的重要性的不同,提出了决定性字段,并且按照字段的重要程度来对需要检测的字段进行排序,减少了不必要数据的检测次数,从而提高了算法的检测效率;对于数据字段的错误数据,本文采用了基于业务规则的检测方法,为了解决规则库以及算法库的规模大带来的检索效率的问题,提出了规则库两级的分区检索的策略;对于数据字段之间的不一致数据问题,本文采用了基于正则表达式的不一致数据的检测方法,很好的解决了不一致数据问题。本文最后,设计并且实现了面向半结构化数据的数据质量控制系统,并将其应用到了海洋数据环境中,通过应用验证了系统的可用性和有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 问题的提出
  • 1.2 研究背景
  • 1.3 半结构化数据
  • 1.4 数据质量
  • 1.4.1 数据质量定义
  • 1.4.2 数据质量控制方法
  • 1.4.3 数据质量评价指标
  • 1.5 本文的研究内容
  • 1.6 本文的组织结构
  • 第二章 数据质量控制的相关研究
  • 2.1 数据质量问题的分类
  • 2.1.1 单数据源数据质量问题
  • 2.1.2 多数据源集成时数据质量问题
  • 2.2 半结构化数据特点
  • 2.3 相关研究工作
  • 2.4 本章小结
  • 第三章 半结构化数据质量控制模型SDQCM
  • 3.1 模型提出
  • 3.2 模型功能分析
  • 3.3 模型定义
  • 3.4 模型半结构化数据异构性处理
  • 3.5 模型的构建过程
  • 3.5.1 数据分析
  • 3.5.2 数据模式定义
  • 3.5.3 评估指标选择
  • 3.5.4 控制规则及算法定义
  • 3.6 模型的特点分析
  • 3.7 本章小结
  • 第四章 SDQCM数据质量控制方法
  • 4.1 不完整数据控制
  • 4.1.1 不完整数据
  • 4.1.2 传统不完整数据检测方法
  • 4.1.3 算法改进
  • 4.2 错误数据控制
  • 4.2.1 错误数据
  • 4.2.2 业务规则
  • 4.2.3 基于业务规则的错误数据检测方法及优化
  • 4.3 不一致数据控制
  • 4.3.1 不一致数据
  • 4.3.2 数据标准化
  • 4.3.3 不一致数据标准化处理方法
  • 4.4 数据处理方法
  • 4.5 本章小结
  • 第五章 数据质量控制系统设计与实现
  • 5.1 系统功能需求分析
  • 5.2 系统总体设计
  • 5.3 系统主要模块设计与实现
  • 5.3.1 半结构化数据的访问接口
  • 5.3.2 规则及算法库模块
  • 5.3.3 质量控制执行模块
  • 5.4 主要功能界面
  • 5.5 本章小结
  • 第六章 数据质量控制系统在海洋数据环境的应用
  • 6.1 海洋数据环境
  • 6.2 数据源结构
  • 6.2.1 科学文本数据的特点
  • 6.2.2 科学文本数据的结构
  • 6.3 系统应用
  • 6.4 应用及性能评价
  • 6.5 本章小结
  • 第七章 总结
  • 7.1 本文总结
  • 7.2 进一步工作
  • 参考文献
  • 致谢
  • 攻硕期间参加项目及发表论文情况
  • 相关论文文献

    • [1].面向精准医疗的大数据质量控制研究[J]. 中国卫生事业管理 2020(06)
    • [2].数据质量控制研究[J]. 信息系统工程 2018(01)
    • [3].自动气象站实时数据质量控制的研究[J]. 科技与创新 2017(04)
    • [4].浅谈清华山维在地形图数据质量控制方面的应用[J]. 测绘与空间地理信息 2017(04)
    • [5].勘探开发数据质量控制研究[J]. 中国管理信息化 2015(19)
    • [6].浅谈自动气象站数据质量控制[J]. 农业与技术 2014(06)
    • [7].智能电网数据质量控制的发展分析与展望[J]. 科技信息 2012(07)
    • [8].浅析统计数据质量控制[J]. 统计与管理 2011(03)
    • [9].基于演化博弈论的政府开放数据质量控制机制研究[J]. 现代情报 2019(01)
    • [10].政府数据开放保障机制在数据质量控制中的应用研究[J]. 情报理论与实践 2018(04)
    • [11].浅谈气象数据质量控制[J]. 农技服务 2017(06)
    • [12].浅谈基层台站草面温度数据质量控制[J]. 农业与技术 2017(19)
    • [13].浅析基于数据挖掘的审计数据质量控制[J]. 商场现代化 2016(12)
    • [14].自动气象站A文数据质量控制的重点和流程[J]. 青海气象 2014(01)
    • [15].自动气象站A文数据质量控制的重点和流程[J]. 青海气象 2014(03)
    • [16].统计数据质量控制体系的构建策略[J]. 财经界(学术版) 2012(22)
    • [17].国内外元数据质量控制的研究进展与发展趋势[J]. 图书与情报 2013(06)
    • [18].新书架[J]. 气象 2020(01)
    • [19].国外科研数据知识库数据质量控制研究[J]. 图书馆杂志 2016(11)
    • [20].论统计数据质量控制[J]. 经贸实践 2017(06)
    • [21].科学数据出版过程中的数据质量控制[J]. 图书情报工作 2015(23)
    • [22].患者人群数据质量控制方法[J]. 检验医学 2016(07)
    • [23].海洋站数据质量控制技术探讨[J]. 海洋技术 2011(01)
    • [24].自动气象站分钟数据质量控制系统的建设与应用[J]. 气象研究与应用 2011(04)
    • [25].风廓线雷达数据质量控制方法[J]. 雷达与对抗 2008(01)
    • [26].加强医院HIS系统网络数据质量控制与管理的方法和措施[J]. 哈尔滨医药 2008(06)
    • [27].新形势下采购经理调查数据质量控制思考[J]. 统计科学与实践 2016(07)
    • [28].云计算环境下统计数据质量控制优化方向与内涵——基于国家统计联网直报实践视角[J]. 标准科学 2015(04)
    • [29].水利普查数据质量控制的研究[J]. 水利信息化 2012(03)
    • [30].关于ArcGIS在矢量测绘数据质量控制中的运用[J]. 中华建设 2020(10)

    标签:;  ;  ;  ;  ;  

    面向半结构化数据的数据质量控制系统的研究与实现
    下载Doc文档

    猜你喜欢