面向Deep Web响应页面的模式识别的研究

面向Deep Web响应页面的模式识别的研究

论文摘要

随着信息技术的不断发展,Web上的信息量呈爆炸性增长。按照所蕴含信息深度的不同,可以将Web划分为Surface Web和Deep Web两大类。其中,Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。一些统计数据表明:Deep Web蕴含的信息量、对Deep Web的访问量、增长速度等都远远高于Surface Web。因此,随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段,能够自动地获取蕴含在Deep Web中丰富的数据资源并对其进行大规模集成显得尤为重要。当今查询Web信息的主要手段是借助搜索引擎,而传统搜索引擎只能爬取到SurfaceWeb信息,对于大量由Deep Web产生的动态数据不是索引的数据不全就是过时。因而搜索引擎对Deep Web的支持越来越成为广大用户的需求。而由于Deep Web的自身特点,又使实现这一需求在技术上存在很大的难度。本文从实际出发,分析了Deep Web查询接口及其响应页面的特点,基于Deep Web自身的特点提出了一种基于Deep Web搜索引擎架构,描述了其架构设计,并且详细叙述了在预处理子系统中提出的两种用于抽取相应模式的算法,即基于询问式和基于输入接口式的输入模式抽取算法。实验表明,我们提出的两种方法在不同的情况下有很好的识别率,结合这两种算法可以很好的解决Deep Web输入接口的识别问题。为建立基于Deep Web的搜索引擎提供理论上的支持。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 问题提出
  • 1.2 国内外研究现状
  • 1.3 本文的研究内容
  • 1.4 本文的组织结构
  • 第二章 相关概念与技术
  • 2.1 Web相关技术
  • 2.1.1 HTML
  • 2.1.2 XML
  • 2.1.3 DOM
  • 2.1.4 Javascript
  • 2.2 Web2.0概念
  • 2.3 搜索引擎现状
  • 2.4 本章小结
  • 第三章 Deep Web搜索系统(DWSearch)设计
  • 3.1 基本需求
  • 3.2 DWSearch体系结构
  • 3.3 预处理子系统
  • 3.4 查询子系统
  • 3.5 缓存子系统
  • 3.6 本章小结
  • 第四章 基于询问式输出接口模式识别
  • 4.1 获取实例数据
  • 4.1.1 获取响应页面
  • 4.1.2 页面分析
  • 4.1.3 抽取实例数据
  • 4.2 匹配统一接口
  • 4.2.1 相关定义
  • 4.2.2 模式匹配策略
  • 4.2.3 实例介绍
  • 4.2.4 补充统一接口
  • 4.3 本章小结
  • 第五章 基于输入接口模式的输出接口模式识别
  • 5.1 领域知识库模型与数据模式定义
  • 5.1.1 领域知识库模型描述
  • 5.1.2 领域知识预处理
  • 5.1.3 数据模式定义
  • 5.2 基于查询实例的查询探测
  • 5.2.1 生成数据源查询请求
  • 5.2.2 基于DOM的结果页面模型
  • 5.3 基于实例的模式匹配方法
  • 5.4 基于实例模式匹配方法的扩展
  • 5.5 本章小结
  • 第六章 实验分析
  • 6.1 实验设置
  • 6.2 实验结果及分析
  • 6.3 本章小结
  • 第七章 总结及展望
  • 7.1 本文主要工作
  • 7.2 未来研究工作
  • 参考文献
  • 致谢
  • 攻硕期间科研及发表论文情况
  • 相关论文文献

    • [1].基于结果模式的Deep Web数据标注方法[J]. 计算机应用 2011(07)
    • [2].基于启发式信息的Deep Web结果模式获取方法[J]. 计算机应用研究 2011(08)
    • [3].Deep Web语义搜索系统设计[J]. 武汉理工大学学报 2010(16)
    • [4].Deep Web中基于聚类的复杂模式匹配[J]. 微计算机信息 2009(06)
    • [5].Deep Web数据源的发现和分类[J]. 上海师范大学学报(自然科学版) 2016(05)
    • [6].一种基于领域本体的Deep Web实体信息提取的后处理方法[J]. 安徽工程大学学报 2016(05)
    • [7].基于领域本体的Deep Web内容获取技术研究[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [8].半结构化的Deep Web信息抽取技术[J]. 电脑知识与技术 2010(15)
    • [9].结合匹配度和语义相似度的Deep Web查询接口模式匹配[J]. 计算机应用 2012(06)
    • [10].一种面向Deep Web数据源的重复记录识别模型[J]. 电子学报 2010(02)
    • [11].基于Deep Web挖掘的搜索策略[J]. 福建电脑 2008(03)
    • [12].Deep Web集成服务的不确定模式匹配[J]. 计算机学报 2008(08)
    • [13].Deep Web搜索技术进展综述[J]. 山东大学学报(工学版) 2009(02)
    • [14].一种deep web数据源下重复记录识别模型(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [15].基于模板和领域本体的Deep Web信息抽取研究[J]. 计算机工程与设计 2014(01)
    • [16].基于蚂蚁算法的Deep Web页面信息抽取方法研究[J]. 煤炭技术 2013(02)
    • [17].基于伪属性语义匹配的Deep web信息抽取[J]. 四川大学学报(工程科学版) 2009(02)
    • [18].基于循环策略和动态知识的deep Web数据获取方法[J]. 通信学报 2012(10)
    • [19].基于布尔矩阵的Deep Web复杂模式匹配[J]. 计算机工程 2011(12)
    • [20].基于结果模式的Deep Web数据集成[J]. 小型微型计算机系统 2010(05)
    • [21].Deep Web下基于中文分词的聚类算法[J]. 计算机工程与应用 2011(04)
    • [22].基于本体和语义相似度的Deep Web数据源发现技术[J]. 计算机光盘软件与应用 2012(20)
    • [23].基于Deep Web的主题搜索引擎的系统设计[J]. 数字技术与应用 2011(02)
    • [24].Deep web在个性化信息服务中的应用[J]. 电子商务 2010(08)
    • [25].Deep Web数据集成中模式匹配算法的研究[J]. 西安欧亚学院学报 2009(01)
    • [26].基于潜在语义分析的Deep Web查询接口聚类研究[J]. 计算机科学 2013(11)
    • [27].基于抽样的Deep Web模式匹配框架[J]. 计算机工程与应用 2015(03)
    • [28].基于规则集的Deep Web信息检索[J]. 计算机工程 2008(13)
    • [29].Deep web站点查询界面的潜在语义分析(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [30].基于主题Deep Web数据挖掘的研究与探索[J]. 电脑知识与技术 2012(16)

    标签:;  ;  ;  ;  ;  

    面向Deep Web响应页面的模式识别的研究
    下载Doc文档

    猜你喜欢