矢量空间数据实体匹配方法与应用研究

矢量空间数据实体匹配方法与应用研究

论文摘要

随着地理信息系统技术的不断发展和广泛应用,人们对空间数据的需求不断增加,并且对空间数据的现势性和质量的要求也越来越高。为了适应这一需求,许多部门纷纷采集了大量的空间数据,并建立了具有各自应用目的的空间数据库(地图数据库)。为了保持空间数据的现势性,需要定期对已有的矢量空间数据库进行局部更新,这时就需要基于实体匹配技术来分析矢量空间数据库中的实体变化情况并进行相关更新操作。而同一地区的矢量空间数据往往被多个部门重复采集,这些由不同部门采集的数据在几何位置、几何形状、拓扑结构、几何精度、属性详细程度、编码方案、语义表达以及实体空间关系等方面不尽相同,使得数据的集成与共享非常困难,为了有效地利用这些存在差异的数据、降低数据获取费用、加快数据更新速度、改善数据质量等,往往需要对跨部门、跨行业、跨区域、跨时间阶段的各种比例尺的空间数据进行集成与信息融合,得到精度较高、属性信息更丰富、地图范围更大的高质量的空间数据,在这种情况下需要进行不同地图数据库之间的实体匹配,建立实体层次的连接,然后在此基础上进行矢量空间数据融合处理,解决数据之间的几何和语义的不一致性问题。本文对矢量空间数据的实体匹配方法进行了深入系统的研究,并研究了实体匹配技术在数据更新、多源数据的不一致性处理中的应用,给出了合理可行的基于实体匹配的数据更新方法以及基于实体匹配的不一致性处理方法。主要研究内容、研究成果和作者的创新点概括如下:(1)总结了实体匹配方法国内外研究的现状,指出了实体匹配研究中还有待于进一步解决的关键问题。(2)介绍了与论文研究密切相关的术语、基本概念及相关理论;阐述了实体匹配的一般流程;从数据的几何类型、数据源、比例尺、时相、数据覆盖程度等角度对实体匹配研究的范畴进行了定义;对实体匹配进行了分类并对实体匹配的难点进行了分析;研究了实体匹配质量评价方法。研究表明实体匹配相似度指标的选取与匹配的情况相关,不同的数据情况,应采用不同的匹配方法和策略,而不必追求一种统一的实体匹配方法来解决所有的匹配问题。(3)针对点实体匹配:给出了各种字段类型值的属性相似度计算方法;对距离相互最近的匹配方法进行了实验,效果良好;针对数据集整体呈现为强覆盖、局部密集数据弱覆盖的匹配情况,本文首次引入了点实体环境相似度概念并给出了其计算方法,提出了基于距离、属性与环境等多个相似特征组合的匹配方法,明显地提高了点实体的匹配质量。(4)针对线实体的匹配:在线实体相似度研究方面,根据两个线实体的缓冲区重叠面积的一些良好的特性,提出了基于缓冲区重叠面积的距离相似度指标,相对以往的距离计算方法具有计算量和复杂度小、且效果明显的特点;提出了基于折线段方位编码的形状相似度指标,该相似度具有平移、旋转、比例不变性、可以防实体细微的抖动的优点,而且直观、计算简单;给出了线实体拓扑相似度计算方法;首次提出了线实体环境相似度并给出了计算方法,增强了识别同名实体的能力,提高了实体匹配质量。提出了基于缓冲区分区的候选集搜索算法,该方法有效地排除了一些不可能匹配的目标实体,提高了实体匹配处理效率。提出了基于长度、距离、形状、拓扑、环境、属性等多个特征组合的匹配方法,针对多尺度线状数据的匹配,采用了基于约束的位置相关匹配方法,匹配时均采用了双向匹配与聚类合并策略,有效地解决了一对多、多对多的匹配问题。相比以往的线实体匹配方法,本文提出的方法具有计算简单、处理效率高、匹配质量好的优势。(5)针对面实体的匹配:在面实体相似度研究方面,给出基于面实体重心距离的相似度及拓扑相似度计算方法,提出了融合实体面积与重叠面积的形状相似度及面实体环境相似度并给出了计算方法,通过综合使用各种相似度指标,增强了相似度的辨别能力。提出了基于实体内部相交关系的面实体候选集搜索算法,该方法相对其它方法具有快速、目标实体定位准确等优点,提高了实体匹配处理效率。提出了基于位置且重心距离、实体面积、重叠面积等多个特征组合的匹配方法,匹配时采用双向匹配与聚类合并策略,有效地解决了的一对多、多对多的匹配难点问题。相比以往的面实体匹配方法,本文提出的方法具有计算简单、处理效率高、匹配质量好的优势。(6)研究了实体匹配技术在数据更新中的应用,本文提出了基于实体匹配的数据更新方法,设计了一套顾及无损原始信息的实体匹配、变化检测与更新处理流程;并建立了适用于实体匹配、变化检测与更新处理的空间数据模型;利用基于实体内部相交关系的空间实体搜索方法,大大提高了空间分析的效率,使得在数据集之间缺乏实体映射关系的情况下通过空间分析建立实体映射关系的方法成为可能;提出的基于权重的几何相似性计算模型,解决了复杂情况下的匹配问题,效果较好,适合在矢量空间数据库更新中应用。(7)研究了基于实体匹配的空间数据不一致性处理问题。将不同来源的同名实体之间的不一致性改正分为两类:一对一匹配的不一致性改正和非一对一匹配的不一致性改正。在实体匹配的基础上,研究了实体之间几何位置、形状及属性的不一致性改正方法。对于同名点之间的不一致性改正,采用点位算术平均值或加权平均值获得改正点;对于同一线要素类之间的不一致性改正,提出了基于结点路线长度比进行结点投影取均值的方法;对于同一面要素类之间的不一致性改正,对于无明显转折点的面状实体,提出了带约束条件的最邻近点取均值法进行改正,对于有明显转折点的面状实体,提出了先对同名点取均值进行改正,然后对其它点采用最邻近点取均值法进行改正的策略;采用基于属性转换方向和转换操作的方法对非多对多匹配情况下的属性不一致性进行了改正。通过实验发现,本文所提出的改正方法是可行的,并且要优于现有的算法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究的背景和意义
  • 1.2 国内外研究现状
  • 1.3 研究目标和主要研究内容
  • 1.4 论文的组织结构
  • 第二章 实体匹配概述
  • 2.1 术语与基本概念
  • 2.2 相关理论知识与技术
  • 2.2.1 实体匹配与相关学科和技术
  • 2.2.2 GIS空间关系
  • 2.2.3 多尺度表达与制图综合
  • 2.2.4 空间数据集成与融合
  • 2.2.5 空间数据更新
  • 2.3 实体匹配的一般流程
  • 2.4 实体匹配研究的范畴
  • 2.5 实体匹配质量评价方法
  • 2.6 实体匹配分类
  • 2.7 实体匹配难点分析
  • 2.8 本章小结
  • 第三章 点实体匹配方法
  • 3.1 概述
  • 3.2 点实体相似度
  • 3.2.1 点实体距离相似度
  • 3.2.2 属性相似度
  • 3.2.3 点实体环境相似度
  • 3.3 点实体匹配方法
  • 3.3.1 基于属性唯一标识的匹配方法
  • 3.3.2 基于位置相互最近的匹配方法
  • 3.3.3 基于多特征组合的匹配方法
  • 3.4 点实体匹配实验与分析
  • 3.4.1 第一组数据实验与分析
  • 3.4.2 第二组数据实验与分析
  • 3.5 本章小结
  • 第四章 线实体匹配方法
  • 4.1 概述
  • 4.2 线实体相似度
  • 4.2.1 线实体距离相似度
  • 4.2.2 线实体方向相似度
  • 4.2.3 线实体形状相似度
  • 4.2.4 线实体拓扑相似度
  • 4.2.5 线实体环境相似度
  • 4.3 基于多特征组合的线实体匹配方法
  • 4.3.1 双向匹配与聚类合并策略
  • 4.3.2 线实体粗匹配算法
  • 4.3.3 线实体精匹配算法
  • 4.3.4 线实体匹配实验与分析
  • 4.4 多尺度线状数据实体匹配方法
  • 4.5 本章小结
  • 第五章 面实体匹配方法
  • 5.1 概述
  • 5.2 面实体相似度
  • 5.2.1 面实体距离相似度
  • 5.2.2 面实体方向相似度
  • 5.2.3 面实体形状相似度
  • 5.2.4 面实体拓扑相似度
  • 5.2.5 面实体环境相似度
  • 5.3 基于多特征组合的面实体匹配方法
  • 5.3.1 双向匹配与聚类合并策略
  • 5.3.2 面实体粗匹配算法
  • 5.3.3 面实体精匹配算法
  • 5.3.4 面实体匹配实验与分析
  • 5.4 本章小结
  • 第六章 实体匹配技术应用研究
  • 6.1 实体匹配在数据更新中的应用
  • 6.1.1 概述
  • 6.1.2 基于实体匹配的数据更新方法
  • 6.1.3 实体匹配与变化检测问题描述
  • 6.1.4 实体匹配与变化检测工作流程
  • 6.1.5 数据更新中的实体匹配方法
  • 6.1.6 变化检测与更新处理方法
  • 6.1.7 实体匹配实验分析
  • 6.1.8 基于实体匹配的数据更新应用实例
  • 6.2 实体匹配在不一致性处理中的应用
  • 6.2.1 概述
  • 6.2.2 几何位置与形状不一致性改正方法
  • 6.2.3 属性不一致性改正方法
  • 6.3 本章小结
  • 第七章 总结与展望
  • 7.1 本文的主要贡献和创新点
  • 7.2 进一步的工作及展望
  • 参考文献
  • 攻博期间发表的论文和科研情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    矢量空间数据实体匹配方法与应用研究
    下载Doc文档

    猜你喜欢