论文摘要
本文主要研究如何从互联网的网页中相对自动化地提取结构化的字段信息,从而建立索引数据库并进行智能查询。由于当前web页面大部分都是以HTML格式编写,且一般都是将它们转化成DOM树,再通过模式匹配来进行抽取。通用技术是手工编写网页对应的wrapper,但其扩展性及灵活性都较差,网站一旦有轻微的改版,都会在不同程度上影响抽取的准确率。当今社会中的信息资源每天都在增加,搜索引擎定位用户实际所需的难度也同比加大。面对单位为GB级的信息资源,搜索引擎若仅依靠关键字在全文中进行查询,显然是不能满足需求的。如何帮助用户准确地找出所需的信息资料,成为了一个需要迫切解决的问题。信息抽取技术就是能够解决该难题的有效途径,它能更快地获取自己需要的信息,而且它不仅大幅缩短搜寻的过程,减少人力和时间成本;这是因为它能整合各种分布式的信息,获得综合信息,从而避免人工建立资料的不一致,提高信息的有效性及实用性。信息抽取技术在很多地方都发挥作用,其中最成功的当属比价导购——最近两年来,比价导购系统已经投入商用,其中表现比较出色的有Jango、MySimon和Junglee。在网页信息抽取中,我们首先对网页进行预处理,将网页转变为机器学习可以处理的模型,目前的抽取模型主要有三种:DOM树模型、理解模型、视觉模型;将网页转变为计算机可以处理的模型后,就需要有某种方法能对该种模型进行分析,从中挖掘结构化的信息;它主要有以下4种方法:本体论方法、马尔科夫方法、动态贝叶斯网络方法、条件随机场方法。信息技术的研究主要目的就是为了建立信息抽取系统,把网页中大量半结构化甚至无序的信息转变为结构化的数据信息;信息抽取系统主要通过知识工程和机器学习两种方法来建立,它们都有各自的优势和劣势。对于互联网上的信息,主要分为三类,有自由文本、结构化文本、半结构文本,其中半结构化文本占据较大的比重,因此本文主要对半结构化的文本作出重点研究。考虑到当前的网页都有特定的模板,自动地填充内容并生成网页,它的网页结构及布局具有较大的相似性,因此我们可以利用相似算法地发现网页中的相似结构,从而实现结构化信息的自动抽取。本文设计的信息抽取系统主要用于点评类网站的抽取:它先抽取出点评的列表,再抽取出列表中的标题、正文、发表时间、好评度;该系统融合了相似性算法,视觉特性和DOM树分析等技术。本文首先在DOM树的基础上加上视觉特性,建立新的vision-dom树模型,再在vision-dom树上运用相似算法来自动地发现相似的子结构集,基本步骤有两步:1.设计改良的编辑距离算法,并结合tri-gram算法来较为全面地发现网页树上所有的相似结构,再通过vision-dom树上特有的视觉特性来筛选掉干扰性的重复子结构集:对于如何判断集合的相似性,我们利用了简化的树编辑距离算法,即将树编辑距离转变为数字向量的相似度比较,时间复杂度也就更低;2.在纵向结构上,同类属性的字段的显示位置一般也是相似的,我们设计了投影算法来发现相似的“节点”,在此关于如何判断节点间的相似性,我们选择的是cosine度量方法;我们将基于视觉的相似性算法应用在点评抽取系统中,从而实现了该类信息的自动抽取。测试集选用了84个页面中的825条点评url,实验结果表明抽取效果较好;并将其与同样采用DOM树技术和视觉特性的MDR系统做出对比,对比结果也表明了无论在抽取准确率还是时间效率,都要优于MDR系统;因此说明我们选用的相似算法集结合视觉特性具有较高的抽取精准率和召回率。由于正文和标题的抽取仍存在一些错误的抽取信息,因此未来我们将改进投影算法,以便解决该问题;并且筛选的规则还可以做进一步的优化,从而降低时间复杂度;我们还可以考虑更多的其它的相似性算法,选取算法集中最完美的结合,泛化网页抽取技术,还可以考虑加入一些机器学习的算法作为辅助训练,真正实现网页信息的自动抽取。