Deep Web环境下查询松弛技术的研究

Deep Web环境下查询松弛技术的研究

论文摘要

随着信息技术的不断发展,Web上的信息量呈爆炸性增长。按照所蕴含信息深度的不同,可以将Web划分为Surface Web和Deep Web两大类。其中,Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。Deep Web中的信息量远远大于Surface Web中的信息量,有效地利用这些信息,能够更加充分地发挥Internet的作用。然而,在查询信息的过程中难免会产生失败查询,即没有结果返回的查询。对失败查询进行处理,使其返回与用户意愿比较相近的结果,比告知用户没有结果更具协作性,更有意义。本文基于对Deep Web环境的观察和分析,提出了一种Deep Web环境下查询松弛的解决方案。首先,利用查询探测获得未知数据源的样本信息,并根据样本信息计算各个属性的近似函数依赖关系,得到属性重要度;然后,通过变换数据源关系全图得到针对于查询请求的数据源关系图;最后,利用这个数据源关系图,就可以按照特定的规则进行查询松弛和执行过程。由于查询松弛的存在,从各数据源得到的结果数量可能很大,部分结果与用户查询请求的相似度较低,因此从各数据源得到结果后,先通过skyline方法对结果进行筛选,然后根据各个结果实例与用户查询的相似度进行排序,将最接近用户要求的结果集返回给用户。以此查询松弛和结果过滤方法为基础,实现了Deep Web搜索引擎DWSearch中的查询处理子系统。出于处理并发访问的考虑,该系统采用了分布式设计。以DWSearch系统为平台,通过实验验证了本文提出的查询松弛和结果过滤办法的有效性。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 问题提出
  • 1.2 国内外研究现状
  • 1.3 本文的研究内容
  • 1.4 本文的组织结构
  • 第2章 相关概念与技术
  • 2.1 Deep Web信息集成概述
  • 2.1.1 Deep Web简介
  • 2.1.2 Deep Web不可见原因
  • 2.1.3 动态Web页面分类
  • 2.1.4 Deep Web信息集成系统框架
  • 2.1.5 关键技术简述
  • 2.2 查询松弛方法概述
  • 2.3 Skyline概述
  • 2.3.1 适用环境与性能要求
  • 2.3.2 现有主要算法
  • 2.3.3 算法比较
  • 2.4 本章小结
  • 第3章 DWSearch中查询子系统设计
  • 3.1 Deep Web搜索引擎的基本需求
  • 3.2 查询处理模型
  • 3.3 DWSearch体系结构
  • 3.4 查询子系统
  • 3.5 本章小结
  • 第4章 查询松弛处理策略
  • 4.1 查询松弛方法的选择
  • 4.2 属性重要度计算
  • 4.3 查询松弛与执行策略
  • 4.3.1 松弛顺序与广播式执行
  • 4.3.2 数据源关系图
  • 4.3.3 查询松弛与执行过程
  • 4.3.4 建图
  • 4.4 本章小结
  • 第5章 结果过滤
  • 5.1 Top-k
  • 5.2 Skyline
  • 5.3 Skyline & Top-k
  • 5.4 本章小结
  • 第6章 实验分析
  • 6.1 实验设置
  • 6.2 实验结果及分析
  • 6.3 本章小结
  • 第7章 总结及展望
  • 7.1 本文主要工作
  • 7.2 未来研究工作
  • 参考文献
  • 致谢
  • 攻硕期间科研及发表论文情况
  • 相关论文文献

    • [1].数据时代的大数据数据源垄断法律规范[J]. 网络空间安全 2019(12)
    • [2].乡村大数据源类型研究[J]. 当代农村财经 2020(02)
    • [3].单位名录库更新:互联网大数据源及其数据质量评估[J]. 统计研究 2017(01)
    • [4].一种基于数据源分解判定业务回归测试范围的分析方法[J]. 科技创新导报 2016(34)
    • [5].基于分层抽样的重叠深网数据源选择[J]. 软件学报 2017(05)
    • [6].数据源总线化布局解决方案[J]. 化工自动化及仪表 2015(03)
    • [7].基于用户反馈的深网数据源选择[J]. 小型微型计算机系统 2012(11)
    • [8].基于本体的单一产品数据源组织研究[J]. 中国制造业信息化 2011(01)
    • [9].高职图书馆数字参考咨询数据源建设研究[J]. 当代图书馆 2011(01)
    • [10].基于主题与概率模型的非合作深网数据源选择[J]. 软件学报 2017(12)
    • [11].基于数据源向图的数据库设计中数据关系的表示工具[J]. 计算机科学 2017(S1)
    • [12].基于真值发现的冲突数据源质量评价算法[J]. 浙江大学学报(工学版) 2015(02)
    • [13].动态多数据源的研究与实现[J]. 电脑学习 2010(03)
    • [14].高校社会科学用户数据源选择偏好研究[J]. 图书馆理论与实践 2018(12)
    • [15].基于真值发现的冲突数据源质量评价算法[J]. 浙江大学学报(工学版) 2015(01)
    • [16].信息技术在“数字油田”数据源建设中的基础作用分析[J]. 科技创新导报 2011(22)
    • [17].基于分布对象的大规模多数据源互操作机制[J]. 计算机科学 2008(10)
    • [18].一种基于休眠调度的数据源拥塞控制方法[J]. 计算机研究与发展 2015(08)
    • [19].基于主题模型的深层网数据源选择算法[J]. 计算机应用 2015(09)
    • [20].基于本体的专利数据源集成的研究及应用[J]. 计算机技术与发展 2009(07)
    • [21].高效的数据源选择方式[J]. 计算机科学与探索 2010(10)
    • [22].面向多数据源的数据清洗关键技术的研究[J]. 科技资讯 2009(01)
    • [23].浅析多数据源自动化报表的研究与开发[J]. 数字技术与应用 2020(01)
    • [24].多数据源招聘信息采集的爬虫系统实现[J]. 福建电脑 2019(11)
    • [25].异构专利数据源集成系统中查询的研究[J]. 计算机应用与软件 2010(08)
    • [26].分布数据源两级分类转换处理的技术研究[J]. 机械与电子 2017(03)
    • [27].面向医学领域实体关联检索的深网数据源选择[J]. 计算机工程与应用 2016(10)
    • [28].面向专利数据的多数据源集成与表达[J]. 魅力中国 2009(36)
    • [29].面向农民的问答系统数据源构建[J]. 农业图书情报学刊 2014(05)
    • [30].非合作结构化深网数据源摘要的动态更新[J]. 微电子学与计算机 2014(04)

    标签:;  ;  ;  

    Deep Web环境下查询松弛技术的研究
    下载Doc文档

    猜你喜欢