论文摘要
互联网上信息爆炸,如何快速检索需要信息以及更有效的利用这些信息,成为亟待解决的问题。本文介绍了信息集成系统WS-IIS,该系统整合各种异质的数据源以及Web服务,其中就包含Web数据源。作为WS-IIS一个辅助部分,Web信息抽取子系统提供将Web网站提供的信息封装为Web服务,供信息集成系统使用。本文研究的内容包括Web信息抽取规则和抽取流程两部分。Web页面一般是HTML语言描述的,着重于数据的呈现,而不是数据的描述。信息集成系统没有办法直接利用这些页面上的信息,所以需要Wrapper包装器程序将这些页面抽取至目标模式。Wrapper的核心是抽取规则。本文提出的基于DOM的信息抽取方法,提出用标准的XML技术操纵Web页面,将数据提取出来。抽取试验证明了这种抽取方法的可行性。抽取规则只解决了从Web页面抽取出数据至目标模式的问题,然而在互联网环境下,Web信息集成面临许多新的挑战。本文提出了信息抽取流程和基于流程的信息抽取框架。XML描述的抽取流程取代了传统的特定程序语言设计的Wrapper,抽取过程的执行由流程执行引擎完成。在此基础上,信息抽取框架实现了Web服务动态封装,将抽取过程封装为独立的Web服务供信息集成系统使用。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.2 研究现状1.3 论文的工作第二章 WS-IIS信息集成系统2.1 信息集成简介2.2 WS-IIS信息集成系统2.2.1 系统结构2.2.2 系统的主要模块2.3 Web信息抽取子系统2.3.1 系统简介2.3.2 已有的Web信息抽取工具2.3.3 现有工具技术的比较2.3.4 信息集成中Web信息抽取面临的挑战第三章 基于DOM的Web信息抽取3.1 相关技术3.1.1 HTML3.1.2 XML3.1.3 XPath3.2 基于DOM树映射的抽取规则3.2.1 网页信息抽取的难点3.2.2 网页信息抽取平台的目标3.2.3 基于DOM树映射的Web信息抽取实现3.3 抽取实验3.4 抽取规则健壮性分析3.4.1 基于DOM树路径3.4.2 基于内容的定位3.4.3 基于节点属性的定位3.5 抽取规则的维护3.6 本章小结第四章 Web信息抽取流程4.1 抽取流程定义4.2 基于流程的Web信息抽取框架的设计4.2.1 体系结构的设计4.2.2 流程执行引擎的设计4.2.3 Web服务封装的设计4.4 实验及结果4.5 结论第五章 结论与展望致谢参考文献作者在读期间的科研成果
相关论文文献
标签:信息集成论文; 信息抽取论文; 服务论文; 抽取流程论文;