面向主题的搜索引擎的设计与实现

面向主题的搜索引擎的设计与实现

论文摘要

在社会信息化的高速发展下,网络作为现代最重要的信息发布和交互平台,给人们带来了前所未有的信息资源;同时,也给人们带来了更大的挑战。面对如此丰富的网络资源,如何迅速定位所需的信息,搜索引擎应运而生。随着科学技术在经济发展占据着越来越重要的主导地位,产业结构的专业化越来越细化,为用户提供专业领域的信息变得更加重要,而通用搜索引擎却无法满足需求。在这种环境背景下,面向主题,针对特定主题的搜索引擎得到人们越来越多的关注,成为搜索引擎发展中的一个重要方向。本文首先论述了搜索引擎的基本原理及其分类,接着详细分析了通用搜索引擎的架构和实现原理,并对其进行改进,提出了一个面向主题的搜索引擎的方案。在对系统进行总体分析和设计之后,对主题爬虫的主题描述、搜索策略、主题相关性验证方法、网页解析技术做了深入细致地分析。在此基础上,使之能够进行主题网页的抓取和判断,实现真正的面向主题的搜索。最后,加入索引和用户检索功能,整合成一个完整的面向主题的搜索引擎。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 搜索引擎技术概述
  • 1.1.1 搜索引擎的概念
  • 1.1.2 搜索引擎的工作原理
  • 1.2 搜索引擎的分类
  • 1.2.1 全文搜索引擎
  • 1.2.2 目录索引型搜索引擎
  • 1.2.3 元搜索引擎
  • 1.3 面向主题的搜索引擎的提出
  • 1.4 国内外发展
  • 1.5 论文的组织结构
  • 第二章 面向主题的搜索引擎
  • 2.1 通用搜索引擎的架构
  • 2.2 网络爬虫策略
  • 2.2.1 宽度优先搜索算法
  • 2.2.2 深度优先搜索算法
  • 2.3 主题搜索引擎的关键技术
  • 2.3.1 主题描述
  • 2.3.2 网页相关度判定
  • 2.3.3 HTML解析
  • 2.3.4 中文分词技术
  • 2.3.5 提取关键词
  • 2.4 系统分析与设计
  • 2.4.1 系统分析
  • 2.4.2 系统设计
  • 2.5 本章小结
  • 第三章 主题相关性验证
  • 3.1 主题描述
  • 3.2 网页相关性判定
  • 3.2.1 基于元数据的判断
  • 3.2.2 基于链接标签数据的判断
  • 3.2.3 基于链接结构的判断
  • 3.2.4 基于页面语义内容的判定
  • 3.2.5 比较分析
  • 3.2.6 页面相关度判定算法选择及改进
  • 3.3 本章小结
  • 第四章 网页解析
  • 4.1 HTML介绍
  • 4.1.1 HTML概念
  • 4.1.2 HTML解析
  • 4.1.3 HtmlParser介绍
  • 4.2 网页信息抽取
  • 4.2.1 获取网页编码
  • 4.2.2 获取网页链接
  • 4.2.3 元数据解析
  • 4.2.4 获取网页正文
  • 4.3 中文分词技术
  • 4.3.1 中文分词方法介绍
  • 4.3.2 机械匹配方法
  • 4.4 提取关键字
  • 4.4.1 分析网页内容结构加权
  • 4.5 本章小结
  • 第五章 系统实现
  • 5.1 主题搜索引擎的爬虫策略
  • 5.1.1 初始URL
  • 5.1.2 URL队列
  • 5.1.3 网页信息抽取
  • 5.1.4 保存网页信息
  • 5.2 建立索引
  • 5.2.1 索引工具Lucence介绍
  • 5.2.2 Lucene的数据结构分析
  • 5.2.3 设计索引库
  • 5.2.4 创建索引库
  • 5.3 Web服务
  • 5.3.1 基于Tomcat的Web服务器
  • 5.3.2 服务端设计
  • 5.3.3 客户端设计
  • 5.4 结果分析
  • 5.4.1 单次抓取结果分析
  • 5.4.2 多次抓取结果分析
  • 5.5 本章小结
  • 第六章 结束语
  • 6.1 主要工作回顾
  • 6.2 本课题今后需进一步研究的地方
  • 参考文献
  • 个人简历 在读期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].面向主题的元搜索引擎[J]. 计算机工程与设计 2009(04)
    • [2].面向主题的高校智能决策支持系统研究[J]. 常熟理工学院学报 2011(04)
    • [3].一种面向主题的Web知识检索方法[J]. 小型微型计算机系统 2012(10)
    • [4].一种面向主题的web知识检索方法[J]. 计算机光盘软件与应用 2012(22)
    • [5].面向主题的LDM设计的难点和解决思路[J]. 中小企业管理与科技(下旬刊) 2011(08)
    • [6].一种新的面向主题的爬行算法[J]. 计算机应用研究 2009(05)
    • [7].面向主题的网页采集系统的设计与研究[J]. 计算机与数字工程 2008(04)

    标签:;  ;  ;  ;  ;  

    面向主题的搜索引擎的设计与实现
    下载Doc文档

    猜你喜欢