论文摘要
互联网提供了海量的信息,最理想的情况是互联网提供的这些信息不仅能被人们很容易地浏览,更重要是作为一个数据源能像关系型数据库一样被查询,各种计算机应用能有效地利用上这些信息。然而,互联网上文本信息的格式多是半结构化的HTML格式,它是无法被机器直接处理的。所以如何将非结构化的Web网页信息转化为便于机器处理的结构化信息,以及让这些数据得到更有效利用是一个非常值得研究的课题。因此,出现了Web信息抽取技术,其目的就是要将Web中包含的信息进行结构化处理,将信息变成表格一样的组织形式。本文主要研究基于HTML文档的信息抽取,提出了一种基于样本标注的快速Web信息抽取方法。通过对样本进行标注,生成对应的包装器,实现了对Web上的图书信息的抽取。在实现的系统原型中,抽取效果良好,可直接应用于Web查询和搜索,也可以作为其他应用的数据准备。本文的主要工作如下:(1)设计并实现了一个图书网页抓取系统。在网页的抓取过程中,利用MD5摘要算法实现了对重复的URL和内容相同的Web页面的排除,并提出了摘要算法的替代方案。为了排除与抽取目标无关的网页,消除抽取的外噪音,我们定义图书信息描述的主题词库,并且通过一些URL过滤规则,减少了进入系统的噪音页面的数量。通过分析页面内部结构,利用标签属性过滤算法,完成了对网页内部噪音的部分过滤。(2)通过对图书信息网页结构进行分析,发现了图书信息描述的结构化特征和局部性差异,因此选定一定数量的有代表性图书样本进行人工标注。通过分析待抽取信息项的结构,设计了生成信息项的前缀和后缀算法,生成了网页的抽取规则。利用图书信息的结构化特征,对生成的规则进行了合并,减少了样本标注数量并提高了抽取的准确度。(3)利用生成的规则库,通过对字段规则的组合,重新得到网页的抽取规则,实现了网页的高效、精确的抽取。为了提供给用户更多的图书信息,我们对图书信息进行融合,通过建立ISBN的倒排索引和图书信息的融合及不一致检查算法,初步完成了图书信息的整合。