论文摘要
随着Internet的广泛应用,Web上的资源信息呈爆炸性增长。其中,Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。一些统计数据表明:Deep Web蕴含的信息量、对Deep Web的访问量、增长速度等都远远高于Surface Web。因此,随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。Deep Web返回的查询结果主要是通过HTML页面来展现的,其内容多样、形式各异,这就造成了结果数据的异构性和缺乏结构性,使得自动从中获取有价值的信息变成一件具有挑战性的任务。因此,如何有效抽取Deep Web中的数据资源成为一个值得研究的问题,其目标是将查询获取的结果响应页面中所包含的实体信息正确而有效地抽取出来,并以结构化的形式进行表示。本文通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(D-EEM, DOM-tree based Deep Web Entity Extraction Mechanism),能够有效解决Deep Web环境中的实体抽取问题。论文的主要内容包括如下几个方面:(1)结合手动实体抽取和自动实体抽取的应用需求,提出了D-EEM的层次模型,自底向上将D-EEM划分为信息采集层、实体抽取层和外部表示层,能够有效解决DeepWeb实体抽取中区域定位、规则生成及语义标注等问题。(2)提出了基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,从而建立抽取结果与全局模式的映射关系,有效地将来自不同数据源的抽取结果进行合成。(3)设计并实现了D-EEM的原型系统,一方面为用户提供了一个交互式的编辑环境,友好的帮助用户完成抽取模板的手动设置;另一方面实现了基于DOM树的自动实体抽取策略,经过网页预处理、数据区域定位、实体区域定位、抽取规则生成及语义标注等过程,最终将网页上的有用数据以结构化的形式存储。(4)通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其它实体抽取策略相比,D-EEM在功能完善性、抽取准确性及抽取效率等方面具有一定的优势。