基于树模型的多包装器信息抽取系统研究

基于树模型的多包装器信息抽取系统研究

论文摘要

随着互联网的发展,网络成为人们获取自己需要的信息的重要途径,Web信息抽取是一种可以从Web页面信息中抽取出结构化的信息的技术,为人们从浩瀚如海的internet网上获取信息提供了便利,包装器技术就是其中的一种。然而现在Web页面上的信息变得越来越密集,一个页面可能会提供具有不同含义的数据块信息,这种页面被称作多个信息块Web页面。在以往的Web信息抽取技术中,包装器大部分针对只含有一个信息块的Web页面,而不适用于这种多个信息块Web页面。因此针对以往包装器的适应性缺点,本文提出了一种对应信息块的子树模型的表示方法,在这个子树模型的基础上提出了一种基于树模型的多包装器生成算法,并设计了基于树模型的多包装器信息抽取系统。基于树模型的多包装器信息抽取系统首先将多信息块Web页面解析为DOM树,然后通过一种基于DOM树的页面分块方法将多信息块Web页面分块形成多个子树模型,每个信息块均对应一个子树模型,提出一种KEY-SubTree的表示方法用来表示子树模型,为每个子树模型赋予KEY-Value值用来区分彼此,因此可以根据KEY-Value值划分形成以KEY-Value值为区别关键词的KEY-SubTree集合。最后在多包装器生成过程中,根据Tree-align算法的思想提出一种基于树模型的多包装器生成算法——Multi-wrapper算法,并用它以KEY-SubTree集合为对象生成各个信息块对应的包装器,使得页面中的每个信息块对应一个包装器,生成了多个包装器。将这多个包装器放入一个包装器集合中,以KEY-Value值作为区别关键词来区分每个包装器。设计信息抽取实验,将基于树模型的多包装器信息抽取方法和另外两种多信息块Web页面的信息抽取方法进行比较,基于树模型的多包装器信息抽取方法在准确率和召回率上都有了很大的提高。通过KEY-SubTree中的KEY-Value值来选择包装器来抽取信息块的结构化信息时,抽取效率也非常高。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题的背景与意义
  • 1.2 国内外研究现状
  • 1.3 研究目标及研究内容
  • 1.4 论文组织结构
  • 第二章 Web 信息抽取及相关技术介绍
  • 2.1 Web 信息抽取概述
  • 2.1.1 Web 信息抽取的定义
  • 2.1.2 Web 信息抽取的关键任务
  • 2.1.3 Web 信息抽取的应用
  • 2.2 Web 信息抽取技术
  • 2.2.1 基于正则表达式的信息抽取
  • 2.2.2 基于自然语言理解的信息抽取
  • 2.2.3 基于本体(ontology)的信息抽取
  • 2.2.4 基于包装器归纳的信息抽取
  • 2.2.5 基于HTML 结构的信息抽取
  • 2.3 包装器技术与分类
  • 2.3.1 包装器技术
  • 2.3.2 包装器的分类
  • 2.4 DOM 树
  • 2.4.1 DOM 树的定义与特点
  • 2.4.2 DOM 树的四个接口
  • 2.4.3 DOM 树的应用
  • 2.5 本章小节
  • 第三章 基于树模型的多包装器信息抽取
  • 3.1 基于DOM 树的页面分块技术
  • 3.2 单信息块Web 页面包装器信息抽取技术
  • 3.2.1 基于节点信息的包装器信息抽取技术
  • 3.2.2 基于树结构的包装器信息抽取技术
  • 3.3 多信息块Web 页面的包装器信息抽取技术
  • 3.3.1 多信息块Web 页面的特点介绍
  • 3.3.2 多信息块Web 页面的包装器信息抽取技术
  • 3.4 基于树模型的多包装器信息抽取概述
  • 3.5 本章小结
  • 第四章 基于树模型的多包装器信息抽取系统的设计与实现
  • 4.1 系统抽取流程介绍
  • 4.2 多信息块Web 页面的解析
  • 4.3 多信息块Web 页面中子树模型集合的形成
  • 4.3.1 多信息块Web 页面的分块
  • 4.3.2 KEY-SubTree 的表示
  • 4.3.3 子树模型集合的形成
  • 4.4 基于树模型的多包装器的生成
  • 4.4.1 Tree-align 算法介绍
  • 4.4.2 基于树模型的多包装器生成算法
  • 4.4.3 多包装器集合的形成
  • 4.5 基于树模型的多包装器的信息抽取
  • 4.6 实验与评估
  • 4.6.1 信息抽取评测标准
  • 4.6.2 实验设计与评价
  • 第五章 结论与展望
  • 工作总结
  • 论文创新点
  • 不足与展望
  • 参考文献
  • 攻读硕士学位期间取得的学术成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于树模型的多包装器信息抽取系统研究
    下载Doc文档

    猜你喜欢