论文摘要
在社会信息化的高速发展下,网络作为现代最重要的信息发布和交互平台,给人们带来了前所未有的信息资源;同时,也给人们带来了更大的挑战。面对如此丰富的网络资源,如何迅速定位所需的信息,搜索引擎应运而生。随着科学技术在经济发展占据着越来越重要的主导地位,产业结构的专业化越来越细化,为用户提供专业领域的信息变得更加重要,而通用搜索引擎却无法满足需求。在这种环境背景下,面向主题,针对特定主题的搜索引擎得到人们越来越多的关注,成为搜索引擎发展中的一个重要方向。本文首先论述了搜索引擎的基本原理及其分类,接着详细分析了通用搜索引擎的架构和实现原理,并对其进行改进,提出了一个面向主题的搜索引擎的方案。在对系统进行总体分析和设计之后,对主题爬虫的主题描述、搜索策略、主题相关性验证方法、网页解析技术做了深入细致地分析。在此基础上,使之能够进行主题网页的抓取和判断,实现真正的面向主题的搜索。最后,加入索引和用户检索功能,整合成一个完整的面向主题的搜索引擎。
论文目录
摘要ABSTRACT第一章 绪论1.1 搜索引擎技术概述1.1.1 搜索引擎的概念1.1.2 搜索引擎的工作原理1.2 搜索引擎的分类1.2.1 全文搜索引擎1.2.2 目录索引型搜索引擎1.2.3 元搜索引擎1.3 面向主题的搜索引擎的提出1.4 国内外发展1.5 论文的组织结构第二章 面向主题的搜索引擎2.1 通用搜索引擎的架构2.2 网络爬虫策略2.2.1 宽度优先搜索算法2.2.2 深度优先搜索算法2.3 主题搜索引擎的关键技术2.3.1 主题描述2.3.2 网页相关度判定2.3.3 HTML解析2.3.4 中文分词技术2.3.5 提取关键词2.4 系统分析与设计2.4.1 系统分析2.4.2 系统设计2.5 本章小结第三章 主题相关性验证3.1 主题描述3.2 网页相关性判定3.2.1 基于元数据的判断3.2.2 基于链接标签数据的判断3.2.3 基于链接结构的判断3.2.4 基于页面语义内容的判定3.2.5 比较分析3.2.6 页面相关度判定算法选择及改进3.3 本章小结第四章 网页解析4.1 HTML介绍4.1.1 HTML概念4.1.2 HTML解析4.1.3 HtmlParser介绍4.2 网页信息抽取4.2.1 获取网页编码4.2.2 获取网页链接4.2.3 元数据解析4.2.4 获取网页正文4.3 中文分词技术4.3.1 中文分词方法介绍4.3.2 机械匹配方法4.4 提取关键字4.4.1 分析网页内容结构加权4.5 本章小结第五章 系统实现5.1 主题搜索引擎的爬虫策略5.1.1 初始URL5.1.2 URL队列5.1.3 网页信息抽取5.1.4 保存网页信息5.2 建立索引5.2.1 索引工具Lucence介绍5.2.2 Lucene的数据结构分析5.2.3 设计索引库5.2.4 创建索引库5.3 Web服务5.3.1 基于Tomcat的Web服务器5.3.2 服务端设计5.3.3 客户端设计5.4 结果分析5.4.1 单次抓取结果分析5.4.2 多次抓取结果分析5.5 本章小结第六章 结束语6.1 主要工作回顾6.2 本课题今后需进一步研究的地方参考文献个人简历 在读期间发表的学术论文致谢
相关论文文献
- [1].面向主题的元搜索引擎[J]. 计算机工程与设计 2009(04)
- [2].面向主题的高校智能决策支持系统研究[J]. 常熟理工学院学报 2011(04)
- [3].一种面向主题的Web知识检索方法[J]. 小型微型计算机系统 2012(10)
- [4].一种面向主题的web知识检索方法[J]. 计算机光盘软件与应用 2012(22)
- [5].面向主题的LDM设计的难点和解决思路[J]. 中小企业管理与科技(下旬刊) 2011(08)
- [6].一种新的面向主题的爬行算法[J]. 计算机应用研究 2009(05)
- [7].面向主题的网页采集系统的设计与研究[J]. 计算机与数字工程 2008(04)
标签:面向主题论文; 搜索引擎论文; 网络爬虫论文; 网页相关论文; 网页解析论文;