论文摘要
近几年,大量丰富而有价值的数据在网络中趋于深化,隐藏在查询接口后面的在线数据库中。这些"Deep Web"数据与基于静态网页的"Surface Web"相比,可以提供大量动态生成的网页。如何大规模集成这些数据受到越来越多研究者的关注。作为访问Deep Web后台数据库的门户,查询接口以form形式自主性创建,属性模式结构不规范,语义难以理解,查询接口抽取结果两极分化严重,因此对其模式信息的抽取是Deep Web数据集成首要面临的挑战。本文针对这一问题展开研究。根据同一领域内查询接口的相似性,本文提出基于领域特征的两阶段查询接口抽取算法。所提出的算法基于领域特征,将整个查询接口抽取的过程分为两个阶段:第一阶段对于那些符合领域特征的抽取准确率比较高的标签和元素进行抽取,第二阶段主要依据第一阶段查询接口抽取结果所反映出来的方向性来指导查询接口的自动抽取。同时,基于该算法构建了一个查询接口抽取系统,该系统由两个模块组成,即查询接口分类模块和查询接口抽取模块。查询接口分类模块可以自动地判断查询接口所属领域,并对其进行分类;查询接口抽取模块依据本文所提出的算法对分类后的查询接口进行抽取。该系统能够高效准确地抽取查询接口,其中的查询接口分类模块突破了查询接口领域的限制,验证了所提出算法的实用性和通用性。在实际数据集和合成数据集上进来了大量实验,实验结果表明了所提出算法能够较好地避免查询接口抽取错误扩散现象,有效地解决了查询接口抽取方法中出现的抽取结果两极分化的问题,从而达到较高的查全率和查准率。
论文目录
摘要ABSTRACT第1章 引言1.1 研究背景1.1.1 Deep Web与Surface Web1.1.2 Deep Web数据集成1.2 问题的提出1.3 主要内容1.4 组织结构第2章 相关工作2.1 Deep Web查询接口模型的相关描述2.1.1 一维表达式2.1.2 二维空间关系的描述2.2 属性模式的划分2.2.1 基于启发式的规则2.2.2 基于句法的分析2.3 属性语义的理解2.3.1 基于贝叶斯网络的分类2.3.2 Meta-information的理解2.3.3 Best-effort解析法2.4 本章小结第3章 问题描述3.1 查询接口抽取的相关定义3.1.1 模式结构的分析3.1.2 模式语义及连带抽取错误的分析3.2 查询接口的属性概念模型3.2.1 查询接口属性模式的定义3.2.2 查询接口领域特征3.3 Deep Web查询接口模式的抽取3.4 Deep Web查询接口模式抽取的系统设计3.5 与现有工作比较3.6 本章小结第4章 两阶段查询接口抽取技术4.1 两阶段查询接口的抽取原理4.2 算法描述与分析4.2.1 第一阶段查询接口抽取4.2.2 查询接口方向性抽取模块4.2.3 查询接口切割模块4.2.4 第二阶段查询接口抽取4.3 本章小结第5章 查询接口抽取系统的设计与实现5.1 系统整体结构5.2 查询接口分类模块5.3 查询接口抽取模块5.4 本章小结第6章 实验与分析6.1 测试数据集6.1.1 实际数据集6.1.2 合成样本数据集6.2 测试标准6.2.1 查准率(Precision)6.2.2 查全率(Recall)6.3 实验结果分析6.3.1 第一阶段查询接口抽取结果分析6.3.2 第二阶段查询接口抽取结果分析6.4 结果分析及与其它方法的对比6.4.1 整体实验结果分析6.4.2 与其它抽取方法的比较6.5 本章小结第7章 结论7.1 本文总结7.2 工作展望参考文献致谢攻读硕士期间发表的论文
相关论文文献
标签:查询接口论文; 自动抽取论文; 领域特征论文;