论文摘要
随着互联网的发展,网络成为人们获取自己需要的信息的重要途径,Web信息抽取是一种可以从Web页面信息中抽取出结构化的信息的技术,为人们从浩瀚如海的internet网上获取信息提供了便利,包装器技术就是其中的一种。然而现在Web页面上的信息变得越来越密集,一个页面可能会提供具有不同含义的数据块信息,这种页面被称作多个信息块Web页面。在以往的Web信息抽取技术中,包装器大部分针对只含有一个信息块的Web页面,而不适用于这种多个信息块Web页面。因此针对以往包装器的适应性缺点,本文提出了一种对应信息块的子树模型的表示方法,在这个子树模型的基础上提出了一种基于树模型的多包装器生成算法,并设计了基于树模型的多包装器信息抽取系统。基于树模型的多包装器信息抽取系统首先将多信息块Web页面解析为DOM树,然后通过一种基于DOM树的页面分块方法将多信息块Web页面分块形成多个子树模型,每个信息块均对应一个子树模型,提出一种KEY-SubTree的表示方法用来表示子树模型,为每个子树模型赋予KEY-Value值用来区分彼此,因此可以根据KEY-Value值划分形成以KEY-Value值为区别关键词的KEY-SubTree集合。最后在多包装器生成过程中,根据Tree-align算法的思想提出一种基于树模型的多包装器生成算法——Multi-wrapper算法,并用它以KEY-SubTree集合为对象生成各个信息块对应的包装器,使得页面中的每个信息块对应一个包装器,生成了多个包装器。将这多个包装器放入一个包装器集合中,以KEY-Value值作为区别关键词来区分每个包装器。设计信息抽取实验,将基于树模型的多包装器信息抽取方法和另外两种多信息块Web页面的信息抽取方法进行比较,基于树模型的多包装器信息抽取方法在准确率和召回率上都有了很大的提高。通过KEY-SubTree中的KEY-Value值来选择包装器来抽取信息块的结构化信息时,抽取效率也非常高。
论文目录
摘要Abstract第一章 绪论1.1 课题的背景与意义1.2 国内外研究现状1.3 研究目标及研究内容1.4 论文组织结构第二章 Web 信息抽取及相关技术介绍2.1 Web 信息抽取概述2.1.1 Web 信息抽取的定义2.1.2 Web 信息抽取的关键任务2.1.3 Web 信息抽取的应用2.2 Web 信息抽取技术2.2.1 基于正则表达式的信息抽取2.2.2 基于自然语言理解的信息抽取2.2.3 基于本体(ontology)的信息抽取2.2.4 基于包装器归纳的信息抽取2.2.5 基于HTML 结构的信息抽取2.3 包装器技术与分类2.3.1 包装器技术2.3.2 包装器的分类2.4 DOM 树2.4.1 DOM 树的定义与特点2.4.2 DOM 树的四个接口2.4.3 DOM 树的应用2.5 本章小节第三章 基于树模型的多包装器信息抽取3.1 基于DOM 树的页面分块技术3.2 单信息块Web 页面包装器信息抽取技术3.2.1 基于节点信息的包装器信息抽取技术3.2.2 基于树结构的包装器信息抽取技术3.3 多信息块Web 页面的包装器信息抽取技术3.3.1 多信息块Web 页面的特点介绍3.3.2 多信息块Web 页面的包装器信息抽取技术3.4 基于树模型的多包装器信息抽取概述3.5 本章小结第四章 基于树模型的多包装器信息抽取系统的设计与实现4.1 系统抽取流程介绍4.2 多信息块Web 页面的解析4.3 多信息块Web 页面中子树模型集合的形成4.3.1 多信息块Web 页面的分块4.3.2 KEY-SubTree 的表示4.3.3 子树模型集合的形成4.4 基于树模型的多包装器的生成4.4.1 Tree-align 算法介绍4.4.2 基于树模型的多包装器生成算法4.4.3 多包装器集合的形成4.5 基于树模型的多包装器的信息抽取4.6 实验与评估4.6.1 信息抽取评测标准4.6.2 实验设计与评价第五章 结论与展望工作总结论文创新点不足与展望参考文献攻读硕士学位期间取得的学术成果致谢
相关论文文献
标签:多信息块论文; 信息抽取论文; 子树模型论文; 多包装器论文;