基于结果模式的Deep Web数据集成关键技术研究

基于结果模式的Deep Web数据集成关键技术研究

论文摘要

Deep Web中蕴含的信息数量与质量都要远远高于Surface Web,因此如何有效的获取Deep Web信息并加以集成备受人们关注。目前,国内外的许多研究者已经设计了一些典型的Deep Web数据集成系统框架,并对其中的一些相关技术如Deep Web数据源发现、Deep Web数据源分类、查询接口集成、Deep Web数据源选择及查询分解等进行了深入的研究,并取得了大量成果。Deep Web查询结果处理作为Deep Web数据集成系统中的一个核心功能,需要实时获取、标注并合并数量庞大的结果数据,其性能和效果将直接影响Deep Web数据集成系统。现有的查询结果处理工作在一定程度上实现了自动数据获取、数据标注和结果合并,然而仍存在一些问题,如语义标注性能问题、重复语义标注问题、数据异构与冲突处理问题、数据抽取性能问题、重复模式匹配问题等,这些问题严重影响Deep Web数据集成的性能和有效性。为实现具有高效准确的查询结果处理能力的Deep Web数据集成,本文从Deep Web数据源结果模式的定义出发,提出基于结果模式的Deep Web数据集成机制,对Deep Web数据源结果模式的生成方法、冲突的分类及结果模式冲突检测方法、基于结果模式的Deep Web数据抽取算法和结果输出模式的生成技术等查询结果处理技术进行了深入研究。(1)在分析了现有Deep Web数据集成系统的工作流程及存在不足的基础上,提出了基于结果模式的Deep Web数据集成方法。通过分析Deep Web结果数据的特点,给出了结果模式的定义,它兼顾Deep Web结果数据的语义特征和结构特征,为高效准确的查询结果处理奠定了理论基础。在此基础上,提出了基于结果模式的Deep Web数据集成机制,它以结果模式为核心,通过检测并建立领域内各个Deep Web数据源结果模式间的冲突记录,从而实现实时准确地建立与用户查询请求相对应的结果输出模式,为统一各数据源返回的查询结果奠定基础。结果模式及结果模式间的冲突记录一旦建立,便可在查询结果处理阶段重复使用,从而为高效准确的查询结果处理提供了有效支撑。(2)针对语义标注性能与重复语义标注问题,本文研究了支持高效语义标注的结果模式生成方法。针对结果模式结构特征,提出了基于网页数据特征矩阵的结果模式结构生成方法,根据Deep Web数据源中数据组织特点,给出了网页数据特征矩阵的定义,进而通过构建与分析网页数据特征矩阵来生成结果模式结构特征,为同类结果页面中属性值的获取奠定了基础。针对结果模式语义特征,根据结果模式可以通过对大量样本数据的离线分析来获取这一特点,提出了基于CPN网络的结果模式语义标注方法。给出了有效描述结果数据的基本特征,采用CPN网络学习出数据特征与数据语义之间的关系,语义标注规则一旦建立,便可实时、快速、准确地标注同类结果页面中的属性值,从而有效提高了语义标注性能。(3)针对Deep Web数据源的高度自治性所导致的数据源间的异构问题,本文给出了数据源间冲突的分类及结果模式冲突检测方法。通过分析Deep Web查询接口和结果数据的特点,系统地阐述了Deep Web数据源间可能存在的冲突,并就每一种冲突给出了明确的冲突描述及相应的解决策略。在此基础上,给出了同一领域中结果模式间的冲突检测算法,从而获得结果模式间冲突记录,为进一步的结果输出模式生成和查询结果规范化奠定了良好基础。(4)针对多数Deep Web数据抽取方法无法支持数据语义的获取及嵌套属性的处理,考虑到结果模式的结构特征可以有效地支持待抽取结果页面中属性值的获取,结果模式的语义特征可以有效地支持属性值的语义标注,因此本文提出了基于结果模式的Deep Web数据抽取方法,给出了基于结果模式的Deep Web数据抽取算法,有效地提高了Deep Web数据抽取的性能。(5)针对不同的用户查询请求可能涉及相同的Deep Web数据源所导致的重复模式匹配问题,在结果模式及结果模式间冲突记录的基础上,本文给出了针对不同用户查询请求实时生成相应的结果输出模式的方法。针对结果模式冲突检测阶段检测出的两两数据源间的冲突记录及冲突解决规则,给出了在用户查询请求所涉及的多数据源上的冲突整合规则,在此基础上给出了结果输出模式生成流程和算法,从而达到高效准确地构建满足用户需求的结果输出模式的目的。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 研究内容
  • 1.3 论文结构
  • 第二章 Deep Web数据集成技术
  • 2.1 Deep Web查询接口集成
  • 2.1.1 查询接口模式匹配
  • 2.1.2 查询接口模式合并
  • 2.2 Deep Web数据源选择与查询分解
  • 2.2.1 数据源选择
  • 2.2.2 查询分解
  • 2.3 Deep Web数据抽取
  • 2.3.1 无语义信息的Deep Web数据抽取
  • 2.3.2 带语义信息的Deep Web数据抽取
  • 2.4 Deep Web数据语义标注
  • 2.4.1 基于领域本体的Deep Web数据语义标注
  • 2.4.2 基于启发式规则的Deep Web数据语义标注
  • 2.4.3 基于机器学习的Deep Web数据语义标注
  • 2.5 Deep Web结果数据合并
  • 2.5.1 模式匹配
  • 2.5.2 实体识别
  • 2.5.3 结果排序
  • 2.6 小结
  • 第三章 基于结果模式的Deep Web数据集成机制
  • 3.1 研究思路
  • 3.1.1 目前查询结果处理流程
  • 3.1.2 Deep Web结果页面分析
  • 3.1.3 基于结果模式的查询结果处理思路
  • 3.2 结果模式的定义
  • 3.3 基于结果模式的Deep Web数据集成机制
  • 3.3.1 结果模式的建立过程
  • 3.3.2 基于结果模式的Deep Web数据冲突处理过程
  • 3.3.3 基于结果模式的Deep Web数据抽取与结果合并过程
  • 3.3.4 基于结果模式的Deep Web数据集成过程
  • 3.4 基于结果模式的Deep Web数据集成体系
  • 3.5 小结
  • 第四章 结果模式生成方法
  • 4.1 基于网页数据特征矩阵的结果模式结构生成
  • 4.1.1 分隔标签序列获取
  • 4.1.2 分隔符序列获取
  • 4.2 基于CPN网络的的结果模式语义标注
  • 4.2.1 基于CPN网络的结果模式语义标注流程
  • 4.2.2 属性值特征提取
  • 4.2.3 基于CPN网络的结果模式语义标注算法
  • 4.3 性能评价
  • 4.4 小结
  • 第五章 冲突的分类及结果模式冲突检测算法
  • 5.1 查询接口模型
  • 5.1.1 模型描述
  • 5.1.2 相关定义
  • 5.2 冲突的分类及解决策略
  • 5.2.1 命名冲突及解决策略
  • 5.2.2 元素类型冲突及解决策略
  • 5.2.3 属性结构冲突及解决策略
  • 5.2.4 属性约束冲突及解决策略
  • 5.2.5 语义关系冲突及解决策略
  • 5.3 结果模式冲突检测方法
  • 5.3.1 属性等价判定
  • 5.3.2 结果模式冲突检测算法
  • 5.3.3 性能评价
  • 5.4 小结
  • 第六章 基于结果模式的Deep Web数据抽取算法和结果输出模式生成技术
  • 6.1 基于结果模式的Deep Web数据抽取算法
  • 6.1.1 数据抽取过程
  • 6.1.2 数据抽取算法
  • 6.1.3 性能评价
  • 6.2 结果输出模式生成技术
  • 6.2.1 冲突整合规则
  • 6.2.2 结果输出模式生成算法
  • 6.2.3 应用示例
  • 6.3 小结
  • 第七章 结论
  • 7.1 本文工作总结
  • 7.2 下一步的研究工作
  • 参考文献
  • 致谢
  • 攻读博士学位期间的主要成果
  • 发表论文
  • 科研情况
  • 相关论文文献

    • [1].基于结果模式的Deep Web数据标注方法[J]. 计算机应用 2011(07)
    • [2].基于启发式信息的Deep Web结果模式获取方法[J]. 计算机应用研究 2011(08)
    • [3].Deep Web语义搜索系统设计[J]. 武汉理工大学学报 2010(16)
    • [4].Deep Web中基于聚类的复杂模式匹配[J]. 微计算机信息 2009(06)
    • [5].Deep Web数据源的发现和分类[J]. 上海师范大学学报(自然科学版) 2016(05)
    • [6].一种基于领域本体的Deep Web实体信息提取的后处理方法[J]. 安徽工程大学学报 2016(05)
    • [7].基于领域本体的Deep Web内容获取技术研究[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [8].半结构化的Deep Web信息抽取技术[J]. 电脑知识与技术 2010(15)
    • [9].结合匹配度和语义相似度的Deep Web查询接口模式匹配[J]. 计算机应用 2012(06)
    • [10].一种面向Deep Web数据源的重复记录识别模型[J]. 电子学报 2010(02)
    • [11].基于Deep Web挖掘的搜索策略[J]. 福建电脑 2008(03)
    • [12].Deep Web集成服务的不确定模式匹配[J]. 计算机学报 2008(08)
    • [13].Deep Web搜索技术进展综述[J]. 山东大学学报(工学版) 2009(02)
    • [14].一种deep web数据源下重复记录识别模型(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [15].基于模板和领域本体的Deep Web信息抽取研究[J]. 计算机工程与设计 2014(01)
    • [16].基于蚂蚁算法的Deep Web页面信息抽取方法研究[J]. 煤炭技术 2013(02)
    • [17].基于伪属性语义匹配的Deep web信息抽取[J]. 四川大学学报(工程科学版) 2009(02)
    • [18].基于循环策略和动态知识的deep Web数据获取方法[J]. 通信学报 2012(10)
    • [19].基于布尔矩阵的Deep Web复杂模式匹配[J]. 计算机工程 2011(12)
    • [20].基于结果模式的Deep Web数据集成[J]. 小型微型计算机系统 2010(05)
    • [21].Deep Web下基于中文分词的聚类算法[J]. 计算机工程与应用 2011(04)
    • [22].基于本体和语义相似度的Deep Web数据源发现技术[J]. 计算机光盘软件与应用 2012(20)
    • [23].基于Deep Web的主题搜索引擎的系统设计[J]. 数字技术与应用 2011(02)
    • [24].Deep web在个性化信息服务中的应用[J]. 电子商务 2010(08)
    • [25].Deep Web数据集成中模式匹配算法的研究[J]. 西安欧亚学院学报 2009(01)
    • [26].基于潜在语义分析的Deep Web查询接口聚类研究[J]. 计算机科学 2013(11)
    • [27].基于抽样的Deep Web模式匹配框架[J]. 计算机工程与应用 2015(03)
    • [28].基于规则集的Deep Web信息检索[J]. 计算机工程 2008(13)
    • [29].Deep web站点查询界面的潜在语义分析(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [30].基于主题Deep Web数据挖掘的研究与探索[J]. 电脑知识与技术 2012(16)

    标签:;  ;  ;  ;  ;  

    基于结果模式的Deep Web数据集成关键技术研究
    下载Doc文档

    猜你喜欢