论文摘要
随着Web2.0理念和技术的兴起,全球互联网用户享受到了丰富多样的交互性信息服务,博客正是这种交互性信息服务的典型代表。在这种时代背景下,图书情报学领域的学生、研究人员等纷纷开设博客进行信息交流。然而,图情博客分散、博文质量参差不齐的现状给界内人士的使用带来了不便,虽然Google博客搜索、百度博客搜索等相关的主题搜索引擎已经解决了一些问题,但是仍旧不能满足图情界用户的需求。本文就是针对这一问题尝试构建图情博客搜索引擎,以满足图情用户的需求。本文首先对搜索引擎相关技术和图情博客进行分析,其次引入Nutch这一开源搜索引擎并基于Nutch制定了图情博客搜索引擎的设计方案,再次依据该设计方案开发出相应的主题搜索引擎,最后以实验的方法对该主题搜索引擎的性能进行评估。本文各章节的主要内容如下:1绪论。本章介绍了论文的选题背景、选题意义、国内外研究现状、所采用的研究方法和创新之处。2搜索引擎相关技术及图情博客分析。本章首先分析了搜索引擎、主题搜索引擎的运行原理,指出二者的主要区别在于信息采集模块和网页内容解析模块两部分,主题搜索引擎改进了网络爬虫模块和并在网页内容解析模块增加了主题词库进行信息过滤。其次从博客站点结构、博客页面内容、博客之间链接结构三方面对图情博客进行分析,以增加对图情博客的全面认识。3 Nutch简介及Nutch系统的运行环境配置与运行。本章首先介绍了开源搜索引擎Nutch的基本情况和框架结构,对Nutch有个初步的认识。然后配置Nutch系统的运行环境并详细阐释其运行流程,对Nutch的运行原理和详细结构有进一步的认识。4基于Nutch的图情博客搜索引擎的设计。本章依据软件工程的思想,首先分析搜索引擎系统要实现的目标、要解决的问题以及可行性,然后通过用例图(Use Case Diagram)和序列图(Sequence Diagram)对系统的用户需求进行阐述,最后给出了系统的总体设计方案和详细设计方案。5基于Nutch的图情博客搜索引擎的核心模块实现。本章对详细设计方案中的三个核心模块进行实现。首先是借助图书情报学的信息检索理论和实践对主题资源发现模块进行实现,其次是通过软件分析对爬虫模块的采集策略进行实现,最后是根据用户需求对检索模块进行改进。6实验测试分析与结论。本章首先设定了一系列参数并依据这些参数进行了六轮实验测试,然后对测试结果进行了分析。最后,笔者总结了图情博客搜索引擎的特点及不足之处,并对以后的改进工作做出了展望。