Deep Web查询结果抽取及注释

Deep Web查询结果抽取及注释

论文摘要

本文对Deep Web数据集成系统进行了学习和研究,重点研究了系统中查询结果抽取和查询结果注释两个单元,提出了自己的实现方法。查询结果抽取是指从查询结果返回页面中自动抽取出数据记录;查询结果注释是指为抽取出的数据记录中的各个数据项添加语义标注。在查询结果抽取单元,本文采用基于HTML标签树的方法,通过递归过程在标签树中自顶向下地挖掘数据记录。对数据记录的识别,是通过计算标签树之间的相似度来完成的,标签树之间的相似度是基于编辑距离计算的。本文提出了不同于传统方法所提出的数据记录的定义,基于该定义的抽取过程较传统方法简单,不需要事先挖掘数据区域,而是直接抽取数据记录。在查询结果注释单元,本文采用基于本体与启发式规则相结合的方法为待标注数据项添加语义标注,本体可以保证注释的一致性,启发式规则可以提高注释的完整性。该单元分为本体管理模块和语义标注模块,在本体管理模块构建图书领域本体库并用子概念表和候选概念表来维护本体;在语义标注模块制定了启发式规则,并指出了对一个数据项进行注释的过程。本文采用多个中文图书领域Deep Web站点的查询结果返回页面进行实验测试,测试结果表明本文提出的方法准确、有效。

论文目录

  • 提要
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 查询结果抽取研究现状
  • 1.2.2 查询结果注释研究现状
  • 1.3 论文的研究内容和结构安排
  • 第2章 Deep Web 数据集成系统
  • 2.1 查询接口集成模块
  • 2.1.1 Web 数据库发现
  • 2.1.2 查询接口模式抽取
  • 2.1.3 Web 数据库分类
  • 2.1.4 查询接口集成
  • 2.2 查询转换
  • 2.2.1 Web 数据库选择
  • 2.2.2 查询转换
  • 2.3 查询结果处理
  • 2.4 本章小结
  • 第3章 基于标签树的Deep Web 查询结果自动抽取
  • 3.1 相关定义
  • 3.2 抽取过程
  • 3.2.1 构建标签树
  • 3.2.2 挖掘数据记录
  • 3.3 本章小结
  • 第4章 基于本体和启发式规则的Deep Web 查询结果注释
  • 4.1 本体管理模块
  • 4.1.1 构建领域本体
  • 4.1.2 本体管理器
  • 4.2 语义标注模块
  • 4.2.1 结果模式分析
  • 4.2.2 启发式规则
  • 4.2.3 标注过程
  • 4.3 本章小结
  • 第5章 实验与结果分析
  • 5.1 实验评测标准
  • 5.2 实验环境
  • 5.3 实验结果
  • 5.3.1 查询结果抽取实验结果
  • 5.3.2 查询结果注释实验
  • 5.4 实验结果分析
  • 5.4.1 查询结果抽取实验结果分析
  • 5.4.2 查询结果注释实验结果分析
  • 5.5 本章小结
  • 第6章 总结和展望
  • 参考文献
  • 攻读硕士学位期间发表的论文和参与的项目
  • 致谢
  • 摘要
  • Abstract
  • 相关论文文献

    • [1].基于结果模式的Deep Web数据标注方法[J]. 计算机应用 2011(07)
    • [2].基于启发式信息的Deep Web结果模式获取方法[J]. 计算机应用研究 2011(08)
    • [3].Deep Web语义搜索系统设计[J]. 武汉理工大学学报 2010(16)
    • [4].Deep Web中基于聚类的复杂模式匹配[J]. 微计算机信息 2009(06)
    • [5].Deep Web数据源的发现和分类[J]. 上海师范大学学报(自然科学版) 2016(05)
    • [6].一种基于领域本体的Deep Web实体信息提取的后处理方法[J]. 安徽工程大学学报 2016(05)
    • [7].基于领域本体的Deep Web内容获取技术研究[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [8].半结构化的Deep Web信息抽取技术[J]. 电脑知识与技术 2010(15)
    • [9].结合匹配度和语义相似度的Deep Web查询接口模式匹配[J]. 计算机应用 2012(06)
    • [10].一种面向Deep Web数据源的重复记录识别模型[J]. 电子学报 2010(02)
    • [11].基于Deep Web挖掘的搜索策略[J]. 福建电脑 2008(03)
    • [12].Deep Web集成服务的不确定模式匹配[J]. 计算机学报 2008(08)
    • [13].Deep Web搜索技术进展综述[J]. 山东大学学报(工学版) 2009(02)
    • [14].一种deep web数据源下重复记录识别模型(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [15].基于模板和领域本体的Deep Web信息抽取研究[J]. 计算机工程与设计 2014(01)
    • [16].基于蚂蚁算法的Deep Web页面信息抽取方法研究[J]. 煤炭技术 2013(02)
    • [17].基于伪属性语义匹配的Deep web信息抽取[J]. 四川大学学报(工程科学版) 2009(02)
    • [18].基于循环策略和动态知识的deep Web数据获取方法[J]. 通信学报 2012(10)
    • [19].基于布尔矩阵的Deep Web复杂模式匹配[J]. 计算机工程 2011(12)
    • [20].基于结果模式的Deep Web数据集成[J]. 小型微型计算机系统 2010(05)
    • [21].Deep Web下基于中文分词的聚类算法[J]. 计算机工程与应用 2011(04)
    • [22].基于本体和语义相似度的Deep Web数据源发现技术[J]. 计算机光盘软件与应用 2012(20)
    • [23].基于Deep Web的主题搜索引擎的系统设计[J]. 数字技术与应用 2011(02)
    • [24].Deep web在个性化信息服务中的应用[J]. 电子商务 2010(08)
    • [25].Deep Web数据集成中模式匹配算法的研究[J]. 西安欧亚学院学报 2009(01)
    • [26].基于潜在语义分析的Deep Web查询接口聚类研究[J]. 计算机科学 2013(11)
    • [27].基于抽样的Deep Web模式匹配框架[J]. 计算机工程与应用 2015(03)
    • [28].基于规则集的Deep Web信息检索[J]. 计算机工程 2008(13)
    • [29].Deep web站点查询界面的潜在语义分析(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [30].基于主题Deep Web数据挖掘的研究与探索[J]. 电脑知识与技术 2012(16)

    标签:;  ;  ;  ;  ;  

    Deep Web查询结果抽取及注释
    下载Doc文档

    猜你喜欢