论文摘要
目前,随着经济文化的发展,互联网信息资源正在急剧增加。信息的表现形式也不断趋于多样化,复杂化,诸如论坛、博客、播客、网络硬盘等各种信息服务竞相发展起来。面对这些浩如烟海的网络信息,人们迫切需要一种有效的方式以快速提取出所需的,有价值的资源。事实证明,搜索引擎正是这样一个非常有效的信息检索工具。Web搜索引擎技术作为计算机与信息产业界争相研究开发的对象,已经日益成熟起来。博客作为一种新兴的网络服务形式,已经被越来越多的人所关注和使用。然而由于其正处于发展阶段,搜索引擎技术在博客检索上的应用明显有待改进。具体来说,博客(blog)是web网上的一种共享空间,用户以日记的形式在该空间上发表文章、图片、影音文件等个人资源。而传统搜索引擎在时效性,覆盖率,页面分析等方面都无法满足用户搜索博客资源时的要求。因此,如何设计研发一款能够准确抓取博客页面,较大程度上覆盖博客资源,更新及时的博客搜索引擎就成为目前搜索引擎研究领域的热点和挑战。同时,作为校园网搜索系统的一部分,该引擎检索的博客资源还应尽量贴近校园生活。如何使一个博客搜索引擎按照特定的主题范围搜索,以及如何对得到的结果自动分类以满足特定人群的要求已成为目前研究的热点话题。使该系统在贴近校园生活的范围内进行搜索正是搜索引擎主题化的一个应用。现在人们广泛使用的知名商用搜索引擎在对博客网页的检索上都有所欠缺。虽然一些服务商也提供了专门的博客搜索功能,但它们在对特定主题以及分类方面仍有很多不足。本文将在传统搜索引擎的基础上设计并实现一个专门用于博客资源检索的搜索引擎系统,并力求使其具有面向主题与自动分类功能,以更好的应用到校园网搜索这一大型项目当中。本文详细说明了该搜索引擎系统的开发过程和方法,对搜索引擎的内部软件组织和数据结构、数据存储方法等内容都进行研究、分析和设计;并介绍了插件机制和分布式处理模型,将它们作为整个系统最基本的部分来设计和实现。本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合对博客搜索引擎具体需求的分析,借助基于Java的全文索引软件包Lucene,搭建了博客搜索引擎系统,完成了整个搜索引擎的框架设计和代码实现。