
论文摘要
在信息社会中,如何在浩如烟海的信息中找到我们所需要的、有用的信息成为一个十分重要的问题,Web搜索引擎也因此应运而生,影响我们的生活。目前许多搜索引擎都使用基于关键字查询的传统的信息检索算法和技术,返回的页面数量仍然是成千上万。例如,在百度中搜索“搜索引擎”,找到相关网页约51,200,000篇,在google中找到14,600,000篇。搜索结果数量巨大,根本没办法全部浏览。并且其中大部分网页对用户是没有用的。由此可见,搜索引擎仅有广度,没有深度,是不能满足用户需求的。对这个问题的解决办法是建立垂直搜索引擎。垂直搜索引擎,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩。它是与综合搜索引擎截然不同的引擎类型。本文根据开源代码Lucene、Heritrix等进行垂直搜索引擎技术的研究,主要包括搜索引擎的架构组成,Lucene、Heritrix的架构组成,及如何构建垂直搜索引擎。本文首先介绍搜索引擎的历史,然后介绍搜索引擎的基本构成。接下来介绍Hritrix和Lucene的架构及主要部件。并对深度优先查找、广度优先查找算法、trie算法进行研究,提出用trie实现倒排索引的想法。最后结合实例介绍构建垂直搜索引擎的全过程。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 搜索引擎发展历史与现状1.3 课题研究的意义1.4 论文的组织结构第二章 搜索引擎原理2.1 综合搜索引擎2.1.1 搜索引擎的工作过程2.1.2 搜索引擎的系统架构2.1.3 搜索引擎的相关策略与技术2.2 垂直搜索引擎2.2.1 垂直搜索引擎概述2.2.2 垂直搜索引擎和综合搜索引擎的区别与应用方向2.2.3 垂直搜索引擎的主要技术第三章 网页信息搜集3.1 Heritrix的框架组成3.1.1 抓取任务CrawlOrder3.1.2 中央控制器CrawlController3.1.3 Frontier链接制造工厂3.1.4 用Berkeley DB实现的BdbFrontier3.1.5 Heritrix的多线程ToeThread和ToePool3.1.6 处理链和Processor3.2 扩展和定制Heritrix3.2.1 向Heritrix中添加自己的Extractor3.2.2 扩展FrontierScheduler来抓取特定的内容3.2.3 在Prefetcher中取消robots.txt的限制3.3 深度优先查找算法与广度优先查找算法3.3.1 深度优先查找(depth-first search,DFS)算法3.3.2 广度优先查找(breadth-first search,BFS)算法第四章 网页信息预处理4.1 全文检索引擎Lucene框架4.1.1 全文检索与全文检索系统4.1.2 Lucene的系统结构4.2 Lucene的索引结构分析4.3 用trie实现倒排索引的研究4.3.1 trie4.3.2 标准trie4.3.3 压缩trie4.3.4 后缀trie4.3.5 trie在搜索引擎中的应用第五章 垂直搜索引擎的实现5.1 Eclipse环境的搭建5.1.1 安装配置Heritrix 1.12.15.1.2 在Eclipse中启动Heritrix5.1.3 在Eclipse中创建mypaper工程结构5.2 网页信息搜集5.3 网页信息处理5.3.1 网页内容提取方法5.3.2 解析网页信息的Extractor5.3.3 构建产品信息词库5.3.4 索引与数据库5.4 提供网页信息服务5.4.1 后台程序的设计5.4.2 前台程序的设计第六章 总结与展望参考文献致谢
相关论文文献
标签:搜索引擎论文; 垂直搜索引擎论文;