Deep Web网络蜘蛛研究与初步设计

Deep Web网络蜘蛛研究与初步设计

论文摘要

目前随着Internet信息的爆炸增长,Web服务器上数据信息已经被大量可搜索的在线数据库极大的“深化”,传统搜索引擎已经不能有效检索到隐藏在Web服务器后台在线数据库中的Deep Web信息。如何快速有效获取Deep Web信息正成为搜索引擎研究的热点和和发展趋势。本文重点对网络蜘蛛(Spider or crawler)的研究和改进,以及Deep Web信息提取涉及到的相关技术和算法问题,设计和实现了一个Deep Web网络蜘蛛。论文的主要工作包括以下几个方面:1.分析了传统搜索引擎的设计思想、工作原理和体系结构,从而发现传统搜索引擎在技术上存在的缺陷、不足之处和可改进的地方。2.分析了Deep Web信息集成系统的工作原理和体系结构,并简要说明Deep Web信息集成系统工作流程,系统组成模块中各个模块的功能。3.在以上相关理论和研究结果的基础上,提出了本文中设计Deep Web网络蜘蛛的思想、体系结构和工作流程。4.针对网页采集问题,提出有选择的采集网页类型策略和控制重复网页采集策略,有效地过滤了噪音信息和重复网页抓取问题。5.针对从静态网页中提取Deep Web数据库查询接口问题,提出通过分析网页构建网页标记树模型,通过遍历网页标记树来寻找查询接口。提出用对象模型表示(DWI)查询接口和存储表单数据,为后续查询接口合并与分类提供有效的数据表示模型和良好的存储结构,并给出具体实现算法。6.针对Deep Web查询接口合并与分类问题,提出通过聚类方法实现对其合并与分类,并设计和实现了Lmax算法,使得查询接口分类与合并的准确性有很大的提高。7.总结了Deep Web网络蜘蛛研究与开发经验,并指出了不足之处以及下一步研究的重点。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 问题的提出
  • 1.1.1 Internet 信息组织结构
  • 1.1.2 Deep Web 概念
  • 1.1.3 Deep Web 研究目的与意义
  • 1.2 Deep Web 国内外研究与发展现状
  • 1.3 论文研究内容
  • 1.4 论文结构
  • 第二章 传统搜索引擎与 Deep Web 信息集成系统概述
  • 2.1 搜索引擎简介
  • 2.2 搜索引擎的发展历史与现状
  • 2.2.1 传统搜索引擎的发展历史与现状
  • 2.2.2 Deep Web 信息集成系统发展历史和现状
  • 2.3 传统搜索引擎的工作原理与体系结构
  • 2.3.1 传统搜索引擎的工作原理
  • 2.3.2 传统搜索引擎的体系结构
  • 2.3.3 传统搜索引擎的不足
  • 2.4 Deep Web 信息集成系统工作原理与体系结构
  • 2.4.1 Deep Web 不可见原因
  • 2.4.2 Deep Web 信息集成系统工作原理
  • 2.4.3 Deep Web 信息集成体系结构
  • 2.5 传统搜索引擎与 Deep Web 信息集成系统的区别
  • 2.6 本论文的工作重点与创新点
  • 第三章 Deep Web 网络蜘蛛总体设计
  • 3.1 Deep Web 网络蜘蛛设计中的有关问题
  • 3.1.1 Deep Web 网络蜘蛛要完成的任务
  • 3.1.2 解决发现Web 数据库方法的研究
  • 3.2 Deep Web 网络蜘蛛设计
  • 3.2.1 Deep Web 网络蜘蛛工作流程设计
  • 3.2.2 Deep Web 网络蜘蛛体系结构设计
  • 3.2.3 Deep Web 网络蜘蛛运行控制界面设计
  • 3.3 系统开发环境简述
  • 第四章 Web 服务器扫描设计与实现
  • 4.1 Web 服务器扫描模块体系结构
  • 4.2 Web 服务器扫描模块具体流程设计
  • 4.3 数据存贮结构设计
  • 4.4 Web 服务器扫描具体设计中考虑问题与解决方法
  • 4.4.1 Web 服务器扫描具体设计中考虑问题
  • 4.4.2 问题的解决方法与实现
  • 4.5 Web 服务器扫描模块实验数据与分析
  • 第五章 Deep Web 查询接口抽取与预处理
  • 5.1 Deep Web查询接口提取的作用与困难
  • 5.2 Deep Web查询接口抽取研究现状
  • 5.3 网页中的表单结构分析
  • 5.4 Deep Web 查询接口表示模型
  • 5.5 表单接口提取设计
  • 5.5.1 网页标记树模型构建
  • 5.5.2 网页标记树实现算法
  • 5.5.3 查询接口抽取实现算法
  • 5.6 查询接口提取与预处理模块具体实现
  • 5.7 实验数据与分析
  • 第六章 Deep Web 查询接口合并与分类
  • 6.1 Deep Web数据库分类
  • 6.2 Deep Web数据库分类研究
  • 6.3 Deep Web数据库分类实现
  • 6.3.1 Deep Web 数据库查询接口模型合并模式
  • 6.3.2 通过聚类集合近似求解(ISIP)
  • 6.4 实验结果和数据
  • 第七章 结束语
  • 7.1 总结
  • 7.2 进一步的讨论及展望
  • 参考文献
  • 攻读学位期间取得的研究成果
  • 致谢
  • 相关论文文献

    • [1].网络蜘蛛搜索算法在垂直搜索引擎中的应用[J]. 中小企业管理与科技(上旬刊) 2015(10)
    • [2].网络蜘蛛的职能介绍[J]. 计算机与网络 2018(01)
    • [3].网络蜘蛛技术在校园门户网站中的设计与研究[J]. 科技创新导报 2012(09)
    • [4].网络蜘蛛就是那只母鸡[J]. 新华航空 2009(03)
    • [5].基于主题相似度指导网络蜘蛛穿越隧道的爬行算法[J]. 计算机工程与科学 2009(10)
    • [6].面向主题的网络蜘蛛技术研究及系统实现[J]. 微电子学与计算机 2009(05)
    • [7].搜索引擎中的网络蜘蛛技术探析[J]. 今日科苑 2009(24)
    • [8].网络蜘蛛及WEB文档解析[J]. 剑南文学(经典教苑) 2012(03)
    • [9].改进型遗传算法在网络蜘蛛上的应用[J]. 山东大学学报(理学版) 2015(05)
    • [10].网络蜘蛛的简单设计与研究[J]. 大众商务 2010(16)
    • [11].基于ProActive的P-Spider1.0改进[J]. 计算机工程 2010(17)
    • [12].网络蜘蛛模拟系统分析与设计[J]. 安阳工学院学报 2012(06)
    • [13].浅谈搜索引擎的原理及发展趋势[J]. 高校实验室工作研究 2008(02)
    • [14].基于遗传算法的Web信息采集策略研究[J]. 情报理论与实践 2008(02)
    • [15].基于改进的网络蜘蛛算法抽取Web站点结构的方法[J]. 江南大学学报(自然科学版) 2009(05)
    • [16].网络蜘蛛Larbin的设计和优化[J]. 科技创业月刊 2008(02)
    • [17].增加动态网页对搜索引擎可见度的策略[J]. 甘肃科技 2008(01)
    • [18].主题搜索引擎中网络爬虫的搜索策略研究[J]. 计算机工程与科学 2008(03)
    • [19].让搜索蜘蛛恋上你的网站[J]. 中国现代教育装备 2013(24)
    • [20].基于社区增量自适应爬虫研究[J]. 微型机与应用 2010(21)
    • [21].网络蜘蛛的设计与实现[J]. 现代计算机(专业版) 2009(11)
    • [22].网络搜索引擎的设计与实现[J]. 微型电脑应用 2014(04)
    • [23].搜索引擎的实现与应用[J]. 软件导刊 2010(11)
    • [24].一种垂直搜索引擎主题相关性改进算法[J]. 电脑知识与技术 2009(29)
    • [25].一种基于网页内容和链接分析的主题搜索算法[J]. 情报杂志 2008(06)
    • [26].主题爬虫研究进展[J]. 现代计算机(专业版) 2014(03)
    • [27].个性化搜索引擎算法研究[J]. 河北省科学院学报 2010(03)
    • [28].全文搜索引擎技术[J]. 郑州铁路职业技术学院学报 2008(03)
    • [29].主题搜索引擎中网络蜘蛛搜索策略的研究[J]. 微处理机 2011(04)
    • [30].基于网站的搜索引擎研究[J]. 大连海事大学学报 2008(S1)

    标签:;  ;  ;  ;  ;  

    Deep Web网络蜘蛛研究与初步设计
    下载Doc文档

    猜你喜欢