博客资源的爬取与检索

博客资源的爬取与检索

论文摘要

目前,随着经济文化的发展,互联网信息资源正在急剧增加。信息的表现形式也不断趋于多样化,复杂化,诸如论坛、博客、播客、网络硬盘等各种信息服务竞相发展起来。面对这些浩如烟海的网络信息,人们迫切需要一种有效的方式以快速提取出所需的,有价值的资源。事实证明,搜索引擎正是这样一个非常有效的信息检索工具。Web搜索引擎技术作为计算机与信息产业界争相研究开发的对象,已经日益成熟起来。博客作为一种新兴的网络服务形式,已经被越来越多的人所关注和使用。然而由于其正处于发展阶段,搜索引擎技术在博客检索上的应用明显有待改进。具体来说,博客(blog)是web网上的一种共享空间,用户以日记的形式在该空间上发表文章、图片、影音文件等个人资源。而传统搜索引擎在时效性,覆盖率,页面分析等方面都无法满足用户搜索博客资源时的要求。因此,如何设计研发一款能够准确抓取博客页面,较大程度上覆盖博客资源,更新及时的博客搜索引擎就成为目前搜索引擎研究领域的热点和挑战。同时,作为校园网搜索系统的一部分,该引擎检索的博客资源还应尽量贴近校园生活。如何使一个博客搜索引擎按照特定的主题范围搜索,以及如何对得到的结果自动分类以满足特定人群的要求已成为目前研究的热点话题。使该系统在贴近校园生活的范围内进行搜索正是搜索引擎主题化的一个应用。现在人们广泛使用的知名商用搜索引擎在对博客网页的检索上都有所欠缺。虽然一些服务商也提供了专门的博客搜索功能,但它们在对特定主题以及分类方面仍有很多不足。本文将在传统搜索引擎的基础上设计并实现一个专门用于博客资源检索的搜索引擎系统,并力求使其具有面向主题与自动分类功能,以更好的应用到校园网搜索这一大型项目当中。本文详细说明了该搜索引擎系统的开发过程和方法,对搜索引擎的内部软件组织和数据结构、数据存储方法等内容都进行研究、分析和设计;并介绍了插件机制和分布式处理模型,将它们作为整个系统最基本的部分来设计和实现。本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合对博客搜索引擎具体需求的分析,借助基于Java的全文索引软件包Lucene,搭建了博客搜索引擎系统,完成了整个搜索引擎的框架设计和代码实现。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 系统开发背景
  • 1.2 国内外博客搜索引擎发展现状
  • 1.2.1 博客搜索引擎的原型
  • 1.2.2 国内外知名博客搜索引擎分析
  • 1.3 本文的主要工作
  • 1.4 本文的组织结构
  • 第2章 系统架构设计
  • 2.1 博客搜索引擎系统需求分析
  • 2.2 系统设计目标和原则
  • 2.3 开发环境
  • 2.4 系统功能架构设计
  • 2.4.1 总体功能架构
  • 2.4.2 插件机制
  • 2.4.3 MapReduce分布式处理模型
  • 2.5 系统技术架构
  • 2.5.1 爬取设计
  • 2.5.2 索引和检索
  • 第3章 系统详细设计
  • 3.1 重要模块详细设计
  • 3.1.1 爬取
  • 3.1.2 网页预处理
  • 3.1.2.1 分词处理
  • 3.1.2.2 网页去噪处理
  • 3.1.2.3 网页消重处理
  • 3.1.2.4 页面重要度计算
  • 3.1.3 文档解析
  • 3.1.4 索引和检索
  • 3.2 分布式处理和存储
  • 3.3 日志
  • 第4章 系统实现与测试
  • 4.1 系统功能实现
  • 4.2 网页重要度计算
  • 4.3 正向最大匹配分词算法的实现
  • 4.4 执行脚本
  • 4.5 入链提取
  • 4.6 网页相似度计算
  • 4.7 系统测试结果与分析
  • 第5章 结论
  • 参考文献
  • 致谢
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    博客资源的爬取与检索
    下载Doc文档

    猜你喜欢