信息集成中Web信息抽取技术的研究

信息集成中Web信息抽取技术的研究

论文摘要

互联网上信息爆炸,如何快速检索需要信息以及更有效的利用这些信息,成为亟待解决的问题。本文介绍了信息集成系统WS-IIS,该系统整合各种异质的数据源以及Web服务,其中就包含Web数据源。作为WS-IIS一个辅助部分,Web信息抽取子系统提供将Web网站提供的信息封装为Web服务,供信息集成系统使用。本文研究的内容包括Web信息抽取规则和抽取流程两部分。Web页面一般是HTML语言描述的,着重于数据的呈现,而不是数据的描述。信息集成系统没有办法直接利用这些页面上的信息,所以需要Wrapper包装器程序将这些页面抽取至目标模式。Wrapper的核心是抽取规则。本文提出的基于DOM的信息抽取方法,提出用标准的XML技术操纵Web页面,将数据提取出来。抽取试验证明了这种抽取方法的可行性。抽取规则只解决了从Web页面抽取出数据至目标模式的问题,然而在互联网环境下,Web信息集成面临许多新的挑战。本文提出了信息抽取流程和基于流程的信息抽取框架。XML描述的抽取流程取代了传统的特定程序语言设计的Wrapper,抽取过程的执行由流程执行引擎完成。在此基础上,信息抽取框架实现了Web服务动态封装,将抽取过程封装为独立的Web服务供信息集成系统使用。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 论文的工作
  • 第二章 WS-IIS信息集成系统
  • 2.1 信息集成简介
  • 2.2 WS-IIS信息集成系统
  • 2.2.1 系统结构
  • 2.2.2 系统的主要模块
  • 2.3 Web信息抽取子系统
  • 2.3.1 系统简介
  • 2.3.2 已有的Web信息抽取工具
  • 2.3.3 现有工具技术的比较
  • 2.3.4 信息集成中Web信息抽取面临的挑战
  • 第三章 基于DOM的Web信息抽取
  • 3.1 相关技术
  • 3.1.1 HTML
  • 3.1.2 XML
  • 3.1.3 XPath
  • 3.2 基于DOM树映射的抽取规则
  • 3.2.1 网页信息抽取的难点
  • 3.2.2 网页信息抽取平台的目标
  • 3.2.3 基于DOM树映射的Web信息抽取实现
  • 3.3 抽取实验
  • 3.4 抽取规则健壮性分析
  • 3.4.1 基于DOM树路径
  • 3.4.2 基于内容的定位
  • 3.4.3 基于节点属性的定位
  • 3.5 抽取规则的维护
  • 3.6 本章小结
  • 第四章 Web信息抽取流程
  • 4.1 抽取流程定义
  • 4.2 基于流程的Web信息抽取框架的设计
  • 4.2.1 体系结构的设计
  • 4.2.2 流程执行引擎的设计
  • 4.2.3 Web服务封装的设计
  • 4.4 实验及结果
  • 4.5 结论
  • 第五章 结论与展望
  • 致谢
  • 参考文献
  • 作者在读期间的科研成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    信息集成中Web信息抽取技术的研究
    下载Doc文档

    猜你喜欢