面向Web2.0社区的站内搜索引擎技术的研究与实现

面向Web2.0社区的站内搜索引擎技术的研究与实现

论文摘要

近几年来随着网络信息量呈现爆炸性的增长,查找符合自己要求的内容变得越来越困难。搜索技术的出现在一定程度上解决了这种矛盾,通过这种技术用户可以最大限度地获取导航信息。但是针对某个具体的社区网站,搜索引擎在内容的及时性以及精确性方面还有自身的弱点。因此在Web2.0社区中,实现一个站内搜索引擎具有很高的现实意义,与搜索引擎相比,它在索引的及时性、内容的精确性方面可以得到很好的保证。本文阐述了面向Web2.0社区站内搜索引擎的设计以及实现,并且通过这样一个具体问题的解决,对面向Web2.0社区的搜索技术的进一步发展做了一些讨论。本文首先介绍了搜索引擎技术的分类以及结构特点,其次介绍了三种站内搜索技术并对其做了比较,并且对现有的Web2.0社区的站内搜索技术进行了详细分析,表明其优势所在和存在的问题,为面向Web2.0社区的站内搜索引擎的设计及实现做好铺垫。然后,基于搜索技术的思想,本文详细阐述了Web2.0社区站内搜索引擎的总体结构,重点介绍了分词技术和搜索排名技术。在分词技术中,主要是对现有的分词技术以及词典技术进行改进,使其符合Web2.0文档的结构特点,并且在分词效率上有明显的提高。在搜索排名技术中,提出了对现有搜索排名技术进行改进,使其符合Web2.0文档结构特点。应用于Web2.0社区站内搜索引擎中的排序算法,主要包含两部分内容:基于内容分析的排序算法和基于链接结构的排序算法。最后,将站内搜索引擎在基于Web2.0技术的开源项目开发平台——Trac平台上进行了实现,并且针对该搜索引擎进行了性能及功能测试,验证课题工作的有效性和可用性。论文完成的工作成果是863“开源软件IP资源库关键技术及系统”的重要组成部分,具有重要的理论和现实意义

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 课题背景
  • 1.3 课题研究内容
  • 1.4 论文的组织
  • 第二章 相关研究
  • 2.1 搜索引擎概述
  • 2.1.1 搜索引擎的历史
  • 2.1.2 搜索引擎的分类
  • 2.1.3 搜索引擎的组成
  • 2.2 Google 和百度技术特点
  • 2.2.1 Google 搜索技术特点
  • 2.2.2 百度搜索技术特点
  • 2.3 站内搜索技术
  • 2.4 Web2.0 社区的站内搜索引擎介绍
  • 2.4.1 Web2.0 技术
  • 2.4.2 典型Web2.0 社区的站内搜索介绍
  • 2.5 本章小结
  • 第三章 面向Web2.0 社区站内搜索引擎的结构研究
  • 3.1 面向Web2.0 社区搜索机制的基本要求
  • 3.2 面向Web2.0 社区站内搜索引擎的架构
  • 3.2.1 触发器
  • 3.2.2 语法分析器
  • 3.2.3 索引器
  • 3.2.4 检索器
  • 3.2.5 用户接口
  • 3.3 面向Web2.0 社区站内搜索引擎的工作流程
  • 3.4 面向Web2.0 社区站内搜索引擎的存储结构
  • 3.5 本章小结
  • 第四章 基于Web2.0 文档的混合模式匹配算法研究
  • 4.1 中文分词理论模型
  • 4.2 中文分词算法研究
  • 4.2.1 基于字符串匹配的分词方法
  • 4.2.2 基于理解的分词方法
  • 4.2.3 基于统计的分词方法
  • 4.3 中文分词词典机制
  • 4.3.1 基于整词二分的分词词典机制
  • 4.3.2 基于TRIE 索引树的分词词典机制
  • 4.3.3 基于逐字二分的分次词典机制
  • 4.3.4 三种分词词典机制的比较
  • 4.4 基于Web2.0 文档分词算法
  • 4.4.1 问题描述
  • 4.4.2 Wiki 的语法
  • 4.4.3 面向Web2.0 社区站内搜索引擎分词词典设计
  • 4.4.4 面向Web2.0 社区站内搜索引擎分词算法设计
  • 4.5 本章小结
  • 第五章 面向 Wiki 结构的站内搜索引擎排序算法研究
  • 5.1 搜索引擎三大定律
  • 5.1.1 相关性定律
  • 5.1.2 人气质量定律
  • 5.1.3 自信心定律
  • 5.2 Web2.0 社区的内容结构
  • 5.3 排序算法的设计
  • 5.3.1 基于内容分析的排序算法
  • 5.3.2 基于链接结构的排序算法
  • 5.3.3 面向Web2.0 社区的站内搜索引擎的排序算法实现
  • 5.4 本章小节
  • 第六章 面向Web2.0 社区站内搜索引擎的实现及评测
  • 6.1 测试环境
  • 6.1.1 硬件配置
  • 6.1.2 软件环境
  • 6.2 Ksearch 的实现
  • 6.2.1 触发器
  • 6.2.2 语法分析器
  • 6.2.3 索引器
  • 6.2.4 检索器
  • 6.2.5 用户接口
  • 6.2.6 技术问题
  • 6.3 KSearch 的评价指标
  • 6.3.1 相对查全率
  • 6.3.2 相对查准率
  • 6.3.3 响应时间
  • 6.3.4 检索的更新速度
  • 6.4 实验评测
  • 6.4.1 查准率检测
  • 6.4.2 响应时间检测
  • 6.4.3 检索的更新速度检测
  • 6.5 测试结果分析
  • 6.5.1 查准率分析
  • 6.5.2 响应时间分析
  • 6.5.3 检索的更新速度分析
  • 6.6 本章小结
  • 第七章 结束语
  • 7.1 全文工作总结
  • 7.2 下一步研究工作展望
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    标签:;  ;  ;  

    面向Web2.0社区的站内搜索引擎技术的研究与实现
    下载Doc文档

    猜你喜欢