论文摘要
由于因特网上的信息处于不断的变化中,搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部的web信息并服务与所有主题的查询请求。相比之下,主题搜索引擎只覆盖与特定主题相关的web区域,这样它搜索的内容可以更深,搜索的周期可以更短,因此能满足用户对快速、准确的获取信息资源的要求。目前基于主题的搜索引擎正成为计算机科学和信息产业争相研究开发的对像。基于主题的网络蜘蛛是主题搜索引擎的重要组成部分,本文从设计和实现的角度对基于主题的网络蜘蛛作了详细的分析和讨论,论述了目前主题蜘蛛技术研究在国内外发展现状和发展趋势。分析了主题蜘蛛的工作原理及其各部分主要功能,抓住网络蜘蛛搜索策略和如何评价页面的主题相关性这两个关键问题,提出一个基于主题的网络蜘蛛。在文章的主体部分,首先介绍了实现一个主题蜘蛛的主要关键技术:主题搜索策略、主题相关度计算、正文内容提取、中文分词,然后以网络蜘蛛的设计流程为主线,采用基于内容评价的搜索策略设计一个适合中小型网站专业网页信息获取的网络蜘蛛,并给出此网络蜘蛛的爬行算法,使用java语言实现系统,该主题蜘蛛系统具有良好的系统结构,可以在因特网搜集与指定主题相关的页面,实验表明系统有理想的性能,可以准确地爬行到高质量的网页。
论文目录
中文摘要ABSTRACT1 引言1.1 基于主题的网络蜘蛛1.2 主题蜘蛛的研究与发展现况1.3 本文的主要工作1.4 本文将内容主要组织为六个部分:2 相关技术2.1 主题蜘蛛的搜索策略2.1.1 基于文字内容评价的搜索策略2.1.2 基于链接结构评价的搜索策略2.1.3 基于分类器评价的搜索策略2.1.4 三种主题搜索策略比较2.2 相关度计算2.2.1 向量空间模型2.2.2 基于关键词的相关度计算2.2.3 基于概念的相关度计算2.3 网页信息提取技术2.3.1 HTML语言2.3.2 标签树2.3.3 HTML内容分块技术2.3.4 正文块提取2.4 中文分词2.4.1 基于字典的分词方法2.4.2 基于词频统计的分词方法2.5 本章小结3 基于主题的蜘蛛概要设计3.1 系统概述3.1.1 系统目标3.1.2 需求描述3.2 总体设计3.2.1 基本设计概念3.2.2 系统流程3.2.3 系统总体结构3.2.4 模块功能分配3.3 接口设计3.3.1 外部接口3.3.2 内部接口3.4 数据库设计3.5 本章小结4 主题蜘蛛实现细节4.1 控制模块4.2 爬行模块4.2.1 爬行线程4.2.2 重复检测4.3 存储模块4.4 过滤模块4.4.1 相关度计算4.4.2 中文分词4.5 本章小结5 主题蜘蛛性能分析5.1 本章小结6 主题词典6.1 主题词典的建立6.2 主题词典的维护6.3 本章小结7 结论参考文献索引作者简历学位论文数据集
相关论文文献
标签:主题搜索论文; 网络蜘蛛论文; 中文分词论文; 相关度计算论文;