基于DOM树的Deep Web实体抽取的研究与实现

论文摘要

随着Internet的广泛应用,Web上的资源信息呈爆炸性增长。其中,Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。一些统计数据表明：Deep Web蕴含的信息量、对Deep Web的访问量、增长速度等都远远高于Surface Web。因此,随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。Deep Web返回的查询结果主要是通过HTML页面来展现的,其内容多样、形式各异,这就造成了结果数据的异构性和缺乏结构性,使得自动从中获取有价值的信息变成一件具有挑战性的任务。因此,如何有效抽取Deep Web中的数据资源成为一个值得研究的问题,其目标是将查询获取的结果响应页面中所包含的实体信息正确而有效地抽取出来,并以结构化的形式进行表示。本文通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制（D-EEM, DOM-tree based Deep Web Entity Extraction Mechanism）,能够有效解决Deep Web环境中的实体抽取问题。论文的主要内容包括如下几个方面：（1）结合手动实体抽取和自动实体抽取的应用需求,提出了D-EEM的层次模型,自底向上将D-EEM划分为信息采集层、实体抽取层和外部表示层,能够有效解决DeepWeb实体抽取中区域定位、规则生成及语义标注等问题。（2）提出了基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性；另外,提出了一种基于上下文距离和共现次数的语义标注方法,从而建立抽取结果与全局模式的映射关系,有效地将来自不同数据源的抽取结果进行合成。（3）设计并实现了D-EEM的原型系统,一方面为用户提供了一个交互式的编辑环境,友好的帮助用户完成抽取模板的手动设置；另一方面实现了基于DOM树的自动实体抽取策略,经过网页预处理、数据区域定位、实体区域定位、抽取规则生成及语义标注等过程,最终将网页上的有用数据以结构化的形式存储。（4）通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其它实体抽取策略相比,D-EEM在功能完善性、抽取准确性及抽取效率等方面具有一定的优势。

论文目录

摘要

ABSTRACT

第1章引言

1.1 研究背景

1.2 国内外研究动态

1.3 本文研究的主要问题

1.4 本文的组织结构

第2章相关技术

2.1 HTML

2.2 XML

2.3 HTML转换技术

2.3.1 Tidy

2.3.2 NekoHTML

2.4 XML解析技术

2.4.1 DOM

2.4.2 XPath

2.4.3 DOM4J

2.5 本章小结

第3章 D-EEM的体系结构

3.1 需求分析

3.1.1 手动实体抽取

3.1.2 自动实体抽取

3.2 D-EEM的层次模型

3.3 功能模块介绍

3.4 本章小结

第4章基于DOM树的自动实体抽取策略

4.1 网页预处理

4.1.1 HTML向XHTML的转换

4.1.2 DOM树生成

4.2 数据区域定位

4.2.1 数据区域的特点

4.2.2 基于聚集度的数据区域定位

4.3 实体区域定位

4.3.1 基本思想

4.3.2 数据区域预处理

4.3.3 子树匹配策略

4.3.4 最佳频繁子树挖掘

4.4 抽取规则生成

4.5 语义标注

4.6 本章小结

第5章 D-EEM原型系统的设计与实现

5.1 开发环境

5.2 开发技术

5.2.1 J2EE开发平台

5.2.2 MVC设计模式

5.2.3 Struts框架

5.3 关键模块的实现

5.3.1 网页预处理模块的实现

5.3.2 模板手动定义模块的实现

5.3.3 区域自动定位模块的实现

5.3.4 抽取规则生成模块的实现

5.3.5 抽取引擎模块的实现

5.4 本章小结

第6章系统性能评估

6.1 测试数据集

6.2 执行代价

6.2.1 区域自动定位的时间代价

6.2.2 DERL与ERL策略的时间代价比较

6.3 性能评估

6.3.1 评价指标

6.3.2 抽取性能评估

6.4 本章小结

第7章结束语

参考文献

致谢

基于DOM树的Deep Web实体抽取的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢