基于主题的网络蜘蛛的设计与实现

基于主题的网络蜘蛛的设计与实现

论文摘要

由于因特网上的信息处于不断的变化中,搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部的web信息并服务与所有主题的查询请求。相比之下,主题搜索引擎只覆盖与特定主题相关的web区域,这样它搜索的内容可以更深,搜索的周期可以更短,因此能满足用户对快速、准确的获取信息资源的要求。目前基于主题的搜索引擎正成为计算机科学和信息产业争相研究开发的对像。基于主题的网络蜘蛛是主题搜索引擎的重要组成部分,本文从设计和实现的角度对基于主题的网络蜘蛛作了详细的分析和讨论,论述了目前主题蜘蛛技术研究在国内外发展现状和发展趋势。分析了主题蜘蛛的工作原理及其各部分主要功能,抓住网络蜘蛛搜索策略和如何评价页面的主题相关性这两个关键问题,提出一个基于主题的网络蜘蛛。在文章的主体部分,首先介绍了实现一个主题蜘蛛的主要关键技术:主题搜索策略、主题相关度计算、正文内容提取、中文分词,然后以网络蜘蛛的设计流程为主线,采用基于内容评价的搜索策略设计一个适合中小型网站专业网页信息获取的网络蜘蛛,并给出此网络蜘蛛的爬行算法,使用java语言实现系统,该主题蜘蛛系统具有良好的系统结构,可以在因特网搜集与指定主题相关的页面,实验表明系统有理想的性能,可以准确地爬行到高质量的网页。

论文目录

  • 中文摘要
  • ABSTRACT
  • 1 引言
  • 1.1 基于主题的网络蜘蛛
  • 1.2 主题蜘蛛的研究与发展现况
  • 1.3 本文的主要工作
  • 1.4 本文将内容主要组织为六个部分:
  • 2 相关技术
  • 2.1 主题蜘蛛的搜索策略
  • 2.1.1 基于文字内容评价的搜索策略
  • 2.1.2 基于链接结构评价的搜索策略
  • 2.1.3 基于分类器评价的搜索策略
  • 2.1.4 三种主题搜索策略比较
  • 2.2 相关度计算
  • 2.2.1 向量空间模型
  • 2.2.2 基于关键词的相关度计算
  • 2.2.3 基于概念的相关度计算
  • 2.3 网页信息提取技术
  • 2.3.1 HTML语言
  • 2.3.2 标签树
  • 2.3.3 HTML内容分块技术
  • 2.3.4 正文块提取
  • 2.4 中文分词
  • 2.4.1 基于字典的分词方法
  • 2.4.2 基于词频统计的分词方法
  • 2.5 本章小结
  • 3 基于主题的蜘蛛概要设计
  • 3.1 系统概述
  • 3.1.1 系统目标
  • 3.1.2 需求描述
  • 3.2 总体设计
  • 3.2.1 基本设计概念
  • 3.2.2 系统流程
  • 3.2.3 系统总体结构
  • 3.2.4 模块功能分配
  • 3.3 接口设计
  • 3.3.1 外部接口
  • 3.3.2 内部接口
  • 3.4 数据库设计
  • 3.5 本章小结
  • 4 主题蜘蛛实现细节
  • 4.1 控制模块
  • 4.2 爬行模块
  • 4.2.1 爬行线程
  • 4.2.2 重复检测
  • 4.3 存储模块
  • 4.4 过滤模块
  • 4.4.1 相关度计算
  • 4.4.2 中文分词
  • 4.5 本章小结
  • 5 主题蜘蛛性能分析
  • 5.1 本章小结
  • 6 主题词典
  • 6.1 主题词典的建立
  • 6.2 主题词典的维护
  • 6.3 本章小结
  • 7 结论
  • 参考文献
  • 索引
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于主题的网络蜘蛛的设计与实现
    下载Doc文档

    猜你喜欢