论文摘要
为了应对信息爆炸带来的挑战,人们迫切需要一些自动化的工具在海量信息源中迅速定位到真正需要的信息。在这样的情况下,信息抽取技术应运而生。目前大部分的Web信息抽取方法都是针对某一个特定的网站的网页人工进行包装器的编写,不能适应网页结构的变化而且系统的移植性较差,而且难以对其他网站进行抽取。本文结合特定领域半结构化文本Web页面的结构特征,提出了一种Web信息自动抽取方法。通过前期对系统进行训练,使之能够根据待抽取网站信息的结构特点自动生成抽取规则,达到自动抽取的目的。本文的主要贡献有两点:一是引入了领域关键词词库,为本领域信息抽取提供知识支持。提出了一种针对特殊领域半结构化信息的关键词提取方法。通过利用半结构化信息的格式特征,人工定制包装器,结合网站遍历器对特定领域的典型网站进行信息抽取,训练生成领域关键词词库。关键词词库通过领域网页语料库训练生成,有了领域知识的来源优势,使得信息抽取技术的适用范围有了很大的提高。二是提出了基于领域关键词词库的抽取规则自动生成方法。将目标网站的样本页面解析为DOM树,提取出有效信息结点,并用关键词词库对结点信息进行匹配,映射出针对目标网站的抽取规则。本文还解决了以下几个问题:设计了基于正则表达式的特定领域半结构化文本的包装器建立方法,提出了超链抽取过程中各种属性链接的处理方法,改进了DOM树有效结点判断算法以适应半结构化文本,提出词库与有效结点到正则表达式的映射方法等。本文最后以农产品行情信息网站作为实验对象,展示了农产品关键词词库的建立与抽取规则的自动生成过程,并通过实验结果验证了自动生成的抽取规则的有效性。总之,基于训练生成的领域语料库生成抽取规则,拥有领域知识的来源优势。所设计的面向领域的半结构化Web信息抽取系统具有开放性、且容易升级,通过对更多Web语料库的训练,词库的完善性会不断提高,系统的适应性也随之加强,能够胜任更多领域半结构化文本的Web信息自动抽取工作。