Deep Web数据源发现和选择研究

Deep Web数据源发现和选择研究

论文摘要

随着Internet信息的迅速增长,Deep Web数据资源的数量急剧增加。然而,这些数据信息只能通过动态查询响应来获取,不容易被传统的搜索引擎如Google、百度搜索到,因此并未得到充分的利用。因此,探索和研究支持Deep Web查询搜索引擎从而满足实际用户的广泛需求,成为信息领域研究的重点。由于Deep Web的自身特点,实现其数据资源集成在技术上存在很大难度。为了发现和集成这些Deep Web资源,本文首先分析了Deep Web国内外研究现状,提出了Deep Web数据集成系统框架,分析了其主要的四种机制:知识库构建机制、查询处理机制、查询转换机制和结果集成机制,并阐述了Deep Web集成的难点。其次,本文阐述了Deep Web爬虫框架,通过分析接口类型和表单处理机制,包括表单解析、表单特征提取、表单模式匹配和表单聚类和分类,结合数据源接口发现四层模型,提出了基于领域的表单爬虫框架DeepRunner,提出基于领域的Deep Web数据源发现算法DOER来获取领域数据源。本文从理论上阐述Deep Web的属性分布和问题描述,分析了Top-k查询技术和主流算法,结合Top-k算法的优点,提出了基于属性支配模式增长算法的Top-k数据源选择策略,并且结合属性间共现度特征,进一步改进算法,提高了算法执行的查准率和查全率,从而提高了用户查询服务的质量。最后,本文阐述Deep Web查询转换和查询结果集成机制。实验表明,本文的DeepRunner框架可以获取Deep Web领域数据源,验证了其可行性;通过大量的实验数据,本文验证了基于领域的数据源发现算法DOER的优越性,也证明了基于属性支配模式增长算法的Top-k数据源选择算法及其改进算法的有效性,尤其在大规模数据集成中,这两种算法效率显著高于传统的Top-k数据源选择策略。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 Deep Web数据源发现和选择
  • 1.2.2 Deep Web模式抽取
  • 1.2.3 Deep Web模式匹配
  • 1.2.4 Deep Web结构化数据抽取
  • 1.2.5 Deep Web实例信息预处理
  • 1.2.6 Deep Web数据整合
  • 1.2.7 国内相关研究
  • 1.3 本文研究内容
  • 1.4 论文结构
  • 第二章 Deep Web数据集成概述
  • 2.1 Deep Web简介
  • 2.2 Deep Web数据集成系统框架
  • 2.2.1 知识库构建机制
  • 2.2.2 查询处理机制
  • 2.2.3 查询转换机制
  • 2.2.4 结果集成机制
  • 2.3 Deep Web集成的难点
  • 2.4 本章小结
  • 第三章 Deep Web数据源发现
  • 3.1 相关研究
  • 3.2 Deep Web爬虫框架
  • 3.3 Deep Web接口发现
  • 3.3.1 接口类型
  • 3.3.2 接口识别
  • 3.4 表单处理机制
  • 3.4.1 表单解析
  • 3.4.2 表单特征提取
  • 3.4.3 表单模式匹配
  • 3.4.4 表单聚类与分类
  • 3.5 基于领域的Deep Web数据源发现
  • 3.5.1 接口发现四层模型
  • 3.5.2 基于领域的表单爬虫框架
  • 3.5.3 基于领域的Deep Web数据源发现算法
  • 3.6 本章小结
  • 第四章 Deep Web Top-k数据源选择
  • 4.1 相关研究
  • 4.1.1 Deep Web数据源选择
  • 4.1.2 Top-k数据源选择
  • 4.2 Deep Web数据源选择方法
  • 4.3 Deep Web的属性分布和问题描述
  • 4.4 传统的Top-k数据源选择方法
  • 4.5 基于属性支配模式增长算法的Top-k数据源选择
  • 4.5.1 相关定义和性质
  • 4.5.2 属性支配模式增长算法
  • 4.5.3 Top-k数据源排序
  • 4.6 结合共现度的数据源选择
  • 4.7 本章小结
  • 第五章 实验分析和性能评价
  • 5.1 实验数据和实现
  • 5.2 实验结果分析
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 本文主要工作
  • 6.2 今后的工作
  • 参考文献
  • 致谢
  • 攻硕期间科研及发表论文情况
  • 相关论文文献

    • [1].数据时代的大数据数据源垄断法律规范[J]. 网络空间安全 2019(12)
    • [2].乡村大数据源类型研究[J]. 当代农村财经 2020(02)
    • [3].单位名录库更新:互联网大数据源及其数据质量评估[J]. 统计研究 2017(01)
    • [4].一种基于数据源分解判定业务回归测试范围的分析方法[J]. 科技创新导报 2016(34)
    • [5].基于分层抽样的重叠深网数据源选择[J]. 软件学报 2017(05)
    • [6].数据源总线化布局解决方案[J]. 化工自动化及仪表 2015(03)
    • [7].基于用户反馈的深网数据源选择[J]. 小型微型计算机系统 2012(11)
    • [8].基于本体的单一产品数据源组织研究[J]. 中国制造业信息化 2011(01)
    • [9].高职图书馆数字参考咨询数据源建设研究[J]. 当代图书馆 2011(01)
    • [10].基于主题与概率模型的非合作深网数据源选择[J]. 软件学报 2017(12)
    • [11].基于数据源向图的数据库设计中数据关系的表示工具[J]. 计算机科学 2017(S1)
    • [12].基于真值发现的冲突数据源质量评价算法[J]. 浙江大学学报(工学版) 2015(02)
    • [13].动态多数据源的研究与实现[J]. 电脑学习 2010(03)
    • [14].高校社会科学用户数据源选择偏好研究[J]. 图书馆理论与实践 2018(12)
    • [15].基于真值发现的冲突数据源质量评价算法[J]. 浙江大学学报(工学版) 2015(01)
    • [16].信息技术在“数字油田”数据源建设中的基础作用分析[J]. 科技创新导报 2011(22)
    • [17].基于分布对象的大规模多数据源互操作机制[J]. 计算机科学 2008(10)
    • [18].一种基于休眠调度的数据源拥塞控制方法[J]. 计算机研究与发展 2015(08)
    • [19].基于主题模型的深层网数据源选择算法[J]. 计算机应用 2015(09)
    • [20].基于本体的专利数据源集成的研究及应用[J]. 计算机技术与发展 2009(07)
    • [21].高效的数据源选择方式[J]. 计算机科学与探索 2010(10)
    • [22].面向多数据源的数据清洗关键技术的研究[J]. 科技资讯 2009(01)
    • [23].浅析多数据源自动化报表的研究与开发[J]. 数字技术与应用 2020(01)
    • [24].多数据源招聘信息采集的爬虫系统实现[J]. 福建电脑 2019(11)
    • [25].异构专利数据源集成系统中查询的研究[J]. 计算机应用与软件 2010(08)
    • [26].分布数据源两级分类转换处理的技术研究[J]. 机械与电子 2017(03)
    • [27].面向医学领域实体关联检索的深网数据源选择[J]. 计算机工程与应用 2016(10)
    • [28].面向专利数据的多数据源集成与表达[J]. 魅力中国 2009(36)
    • [29].面向农民的问答系统数据源构建[J]. 农业图书情报学刊 2014(05)
    • [30].非合作结构化深网数据源摘要的动态更新[J]. 微电子学与计算机 2014(04)

    标签:;  ;  ;  ;  ;  

    Deep Web数据源发现和选择研究
    下载Doc文档

    猜你喜欢