基于结果模式的Deep Web数据抽取机制的研究

基于结果模式的Deep Web数据抽取机制的研究

论文摘要

在Internet的飞速发展和普及下,丰富的Web资源构成了一个巨大的全球性信息仓库,网络已经成为人们获取信息的一个重要手段。面对庞大的Web信息,用户如何从繁杂的数据中快速、准确地找到感兴趣的信息变得越来越困难。为此,近来出现了很多自动和半自动的Deep Web数据集成系统,本文设计了Deep Web信息集成系统DWIIS (Deep Web Information Integration System),该系统主要可分为Deep Web查询接口获取、查询接口集成、查询分解、查询结果获取、查询结果整合、查询结果展示几个部分,对互联网络上的Deep Web数据库信息进行信息整合重组,并基于这些信息做增值服务工作。为用户提供了“一站式”的信息查找服务,极大地提高了信息的查找速度和准确性。重复语义标注、复杂的抽取模式生成方法及嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题,本文提出基于结果模式的Deep Web数据抽取机制,首先通过构建与分析样本结果页面的网页数据特征矩阵建立属性集、生成属性值抽取标识,二者共同组成了页面的结果模式,属性集可以较好地支持后续实体识别、结果合并等应用;属性值抽取标识支持同类结果页面的数据抽取。然后根据结果模式对同类结果页面进行数据抽取,便得到带有语义标注的数据集。对于获取的结果数据集,本文还详细阐述了基于典型属性的实体识别方法和基于非典型属性的实体识别方法,实现了DWIIS其中的实体识别子系统。最后通过实验,将本文提出的方法与同类成果进行了详细的对比,基于结果模式的数据抽取方法和实体识别子系统都具有较高的准确率及效率。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究目标
  • 1.3 本文工作
  • 第2章 研究基础
  • 2.1 Deep Web
  • 2.1.1 Deep Web概念
  • 2.1.2 Deep Web信息抽取典型系统
  • 2.2 Web信息抽取技术
  • 2.2.1 基于自然语言理解方式的信息抽取
  • 2.2.2 基于包装器归纳方式(Wrapper Induction)的信息抽取
  • 2.2.3 基于Ontology方式的信息抽取
  • 2.2.4 基于HTML结构的信息抽取
  • 2.2.5 信息抽取的评价
  • 2.3 相关技术
  • 2.3.1 XML
  • 2.3.2 DOM4J
  • 2.3.3 Java技术
  • 2.4 本章小结
  • 第3章 基于结果模式DEEP WEB数据抽取机制
  • 3.1 研究系统框架
  • 3.2 Deep Web页面的分析
  • 3.2.1 Deep Web页面特点
  • 3.2.2 Deep Web页面数据信息的来源
  • 3.2.3 Deep Web页面的生成方式
  • 3.3 结果模式定义及生成机制
  • 3.3.1 结果模式定义
  • 3.3.2 结果模式的生成机制
  • 3.4 基于结果模式的Deep Web数据抽取机制
  • 3.4.1 基于结果模式的数据抽取框架
  • 3.4.2 数据抽取
  • 3.5 本章小结
  • 第4章 结果模式生成
  • 4.1 网页分块算法
  • 4.2 正文块识别
  • 4.3 构建网页数据特征矩阵
  • 4.3.1 基于分隔标签构建初始网页数据特征矩阵
  • 4.3.2 构建最终网页数据特征矩阵
  • 4.4 生成属性集
  • 4.5 本章小结
  • 第5章 基于结果模式的DEEP WEB数据抽取
  • 5.1 数据记录中属性值的获取
  • 5.2 Deep Web中的实体识别
  • 5.2.1 基于非典型属性的实体识别
  • 5.2.2 基于典型属性的实体识别
  • 5.2.3 实体识别方法比较
  • 5.3 本章小结
  • 第6章 实验设计与实验结果的分析
  • 6.1 实验数据
  • 6.2 实验结果与分析
  • 6.2.1 嵌套属性划分的准确性实验
  • 6.2.2 数据抽取准确率实验
  • 6.2.3 数据抽取效率实验
  • 6.2.4 实体识别准确率实验
  • 6.3 本章小结
  • 第7章 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于结果模式的Deep Web数据抽取机制的研究
    下载Doc文档

    猜你喜欢