面向Web的图书信息抽取方法与实现

面向Web的图书信息抽取方法与实现

论文摘要

互联网提供了海量的信息,最理想的情况是互联网提供的这些信息不仅能被人们很容易地浏览,更重要是作为一个数据源能像关系型数据库一样被查询,各种计算机应用能有效地利用上这些信息。然而,互联网上文本信息的格式多是半结构化的HTML格式,它是无法被机器直接处理的。所以如何将非结构化的Web网页信息转化为便于机器处理的结构化信息,以及让这些数据得到更有效利用是一个非常值得研究的课题。因此,出现了Web信息抽取技术,其目的就是要将Web中包含的信息进行结构化处理,将信息变成表格一样的组织形式。本文主要研究基于HTML文档的信息抽取,提出了一种基于样本标注的快速Web信息抽取方法。通过对样本进行标注,生成对应的包装器,实现了对Web上的图书信息的抽取。在实现的系统原型中,抽取效果良好,可直接应用于Web查询和搜索,也可以作为其他应用的数据准备。本文的主要工作如下:(1)设计并实现了一个图书网页抓取系统。在网页的抓取过程中,利用MD5摘要算法实现了对重复的URL和内容相同的Web页面的排除,并提出了摘要算法的替代方案。为了排除与抽取目标无关的网页,消除抽取的外噪音,我们定义图书信息描述的主题词库,并且通过一些URL过滤规则,减少了进入系统的噪音页面的数量。通过分析页面内部结构,利用标签属性过滤算法,完成了对网页内部噪音的部分过滤。(2)通过对图书信息网页结构进行分析,发现了图书信息描述的结构化特征和局部性差异,因此选定一定数量的有代表性图书样本进行人工标注。通过分析待抽取信息项的结构,设计了生成信息项的前缀和后缀算法,生成了网页的抽取规则。利用图书信息的结构化特征,对生成的规则进行了合并,减少了样本标注数量并提高了抽取的准确度。(3)利用生成的规则库,通过对字段规则的组合,重新得到网页的抽取规则,实现了网页的高效、精确的抽取。为了提供给用户更多的图书信息,我们对图书信息进行融合,通过建立ISBN的倒排索引和图书信息的融合及不一致检查算法,初步完成了图书信息的整合。

论文目录

  • 摘要
  • Abstract
  • 1 引言
  • 1.1 研究背景和意义
  • 1.2 信息抽取技术概述
  • 1.3 Web信息抽取研究现状
  • 1.4 Web信息抽取技术分类
  • 1.5 Web信息抽取系统的设计方法
  • 1.6 本文的研究内容及论文组织
  • 2 相关术语及技术
  • 2.1 HTML
  • 2.2 HTTP技术
  • 2.3 SOCKET技术
  • 2.4 本章小结
  • 3 含图书信息的 Web页面抓取系统
  • 3.1 Web页面抓取系统结构
  • 3.2 URL及网页去重
  • 3.3 网页去噪
  • 3.4 网页抓取系统评价
  • 3.5 本章小结
  • 4 图书信息抽取方法与系统
  • 4.1 图书信息抽取系统结构
  • 4.2 图书信息样本的手工标注
  • 4.3 图书信息抽取规则的学习
  • 4.4 基于规则的图书信息抽取
  • 4.5 本章小结
  • 5 原型系统设计与实现
  • 5.1 网页抓取系统的实现
  • 5.2 图书信息抽取系统的实现
  • 5.3 试验结果和分析
  • 5.4 本章小结
  • 6 结论与展望
  • 致谢
  • 攻读硕士期间主要成果
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    面向Web的图书信息抽取方法与实现
    下载Doc文档

    猜你喜欢