基于领域特征的两阶段查询接口抽取技术的研究与实现

论文摘要

近几年,大量丰富而有价值的数据在网络中趋于深化,隐藏在查询接口后面的在线数据库中。这些"Deep Web"数据与基于静态网页的"Surface Web"相比,可以提供大量动态生成的网页。如何大规模集成这些数据受到越来越多研究者的关注。作为访问Deep Web后台数据库的门户,查询接口以form形式自主性创建,属性模式结构不规范,语义难以理解,查询接口抽取结果两极分化严重,因此对其模式信息的抽取是Deep Web数据集成首要面临的挑战。本文针对这一问题展开研究。根据同一领域内查询接口的相似性,本文提出基于领域特征的两阶段查询接口抽取算法。所提出的算法基于领域特征,将整个查询接口抽取的过程分为两个阶段：第一阶段对于那些符合领域特征的抽取准确率比较高的标签和元素进行抽取,第二阶段主要依据第一阶段查询接口抽取结果所反映出来的方向性来指导查询接口的自动抽取。同时,基于该算法构建了一个查询接口抽取系统,该系统由两个模块组成,即查询接口分类模块和查询接口抽取模块。查询接口分类模块可以自动地判断查询接口所属领域,并对其进行分类；查询接口抽取模块依据本文所提出的算法对分类后的查询接口进行抽取。该系统能够高效准确地抽取查询接口,其中的查询接口分类模块突破了查询接口领域的限制,验证了所提出算法的实用性和通用性。在实际数据集和合成数据集上进来了大量实验,实验结果表明了所提出算法能够较好地避免查询接口抽取错误扩散现象,有效地解决了查询接口抽取方法中出现的抽取结果两极分化的问题,从而达到较高的查全率和查准率。

论文目录

摘要

ABSTRACT

第1章引言

1.1 研究背景

1.1.1 Deep Web与Surface Web

1.1.2 Deep Web数据集成

1.2 问题的提出

1.3 主要内容

1.4 组织结构

第2章相关工作

2.1 Deep Web查询接口模型的相关描述

2.1.1 一维表达式

2.1.2 二维空间关系的描述

2.2 属性模式的划分

2.2.1 基于启发式的规则

2.2.2 基于句法的分析

2.3 属性语义的理解

2.3.1 基于贝叶斯网络的分类

2.3.2 Meta-information的理解

2.3.3 Best-effort解析法

2.4 本章小结

第3章问题描述

3.1 查询接口抽取的相关定义

3.1.1 模式结构的分析

3.1.2 模式语义及连带抽取错误的分析

3.2 查询接口的属性概念模型

3.2.1 查询接口属性模式的定义

3.2.2 查询接口领域特征

3.3 Deep Web查询接口模式的抽取

3.4 Deep Web查询接口模式抽取的系统设计

3.5 与现有工作比较

3.6 本章小结

第4章两阶段查询接口抽取技术

4.1 两阶段查询接口的抽取原理

4.2 算法描述与分析

4.2.1 第一阶段查询接口抽取

4.2.2 查询接口方向性抽取模块

4.2.3 查询接口切割模块

4.2.4 第二阶段查询接口抽取

4.3 本章小结

第5章查询接口抽取系统的设计与实现

5.1 系统整体结构

5.2 查询接口分类模块

5.3 查询接口抽取模块

5.4 本章小结

第6章实验与分析

6.1 测试数据集

6.1.1 实际数据集

6.1.2 合成样本数据集

6.2 测试标准

6.2.1 查准率（Precision）

6.2.2 查全率（Recall）

6.3 实验结果分析

6.3.1 第一阶段查询接口抽取结果分析

6.3.2 第二阶段查询接口抽取结果分析

6.4 结果分析及与其它方法的对比

6.4.1 整体实验结果分析

6.4.2 与其它抽取方法的比较

6.5 本章小结

第7章结论

7.1 本文总结

7.2 工作展望

参考文献

致谢

攻读硕士期间发表的论文

基于领域特征的两阶段查询接口抽取技术的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢