论文摘要
随着计算机及互联网技术的快速发展,Web上的信息量也随之急剧的增长,使得Web成为巨大的分布广泛的数据源。随着各行业对信息的需求越来越高,而有效的整合Web上的海量的异构的数据是一件困难的事情,因而人们提出Web数据集成技术。Web数据集成系统能够将来自多个数据源的数据通过数据抽取、实体统一等过程形成结构统一、表意明确的数据,能够为用户的情报分析、商业决策等应用提供支持。在Web数据集成中,Web页面中的Web数据对象称之为Web实体实例,来自不同数据源的Web实体实例信息在模式上存在着诸多的差异:一方面,对于相同类型的Web实体,不同的Web实体实例通常包含不同的实体属性;另一方面,对于同一实体属性,不同的Web实体实例通常使用不同的属性标签。而且由于Web实体的动态性特点,包含新的属性的Web实体实例及包含新的属性标签的Web实体实例不断的出现在Web页面中。Web实体实例在模式上的诸多差异为数据的整合带来困难。为了消除各Web实体实例间的模式差异,为所有数据提供统一的、规范的模式,需要为Web数据集成系统中所有的Web实体实例构建一个全局模式。本文主要研究Web数据集成中Web实体全局模式的构建方法,主要工作包括下面几个方面:(1)基于Web实体实例在页面中的展示特征及Web数据集成系统中已有的Web实体全局模式信息,本文提出一种基于SVM的Web页面主数据区域识别方法,该方法能够有效的将半结构化及非结构化页面进行数据区域分割并识别出Web实体实例所在的主数据区域,为Web实体属性信息的抽取提供辅助支持。(2)基于Web实体属性标签的特征及Web数据集成系统中已有的Web实体全局模式信息,本文提出一种基于AdaBoost的集成学习方法来从页面的主数据区域自动的抽取Web实体的属性信息,为Web实体全局模式构建提供Web实体模式信息及属性标签信息。(3)基于Web实体模式信息动态变化的特点,本文提出一种基于SVM的Web实体全局模式动态构建方法,该方法可以有效的建立局部模式与全局模式之间的映射关系,根据映射结果扩充全局模式,并且当页面中出现新的Web实体属性信息时,该方法能够及时的将其映射到全局模式中,从而为Web数据集成系统中其他方面的工作提供完整有效的Web实体全局模式。(4)本文利用Web数据集成系统中已有的Web实体全局模式来指导Web页面主数据区域的识别及Web实体属性信息的抽取,从而提高其准确率。Web实体全局模式与Web页面主数据区域识别及Web实体属性信息抽取之间的相互促进作用主要表现为:一方面,Web页面主数据区域的识别及Web实体属性信息的抽取为Web实体全局模式提供更多、更准确的数据支持;另一方面,逐渐丰富的全局模式促进了Web页面主数据区域识别及Web实体属性信息抽取的准确率的提高。本文中的实验验证了这种相互间的促进作用。此外,本文中设计并实现的Web实体全局模式构建原型系统从实际应用角度验证了本文的研究成果。