论文摘要
近几年来随着网络信息量呈现爆炸性的增长,查找符合自己要求的内容变得越来越困难。搜索技术的出现在一定程度上解决了这种矛盾,通过这种技术用户可以最大限度地获取导航信息。但是针对某个具体的社区网站,搜索引擎在内容的及时性以及精确性方面还有自身的弱点。因此在Web2.0社区中,实现一个站内搜索引擎具有很高的现实意义,与搜索引擎相比,它在索引的及时性、内容的精确性方面可以得到很好的保证。本文阐述了面向Web2.0社区站内搜索引擎的设计以及实现,并且通过这样一个具体问题的解决,对面向Web2.0社区的搜索技术的进一步发展做了一些讨论。本文首先介绍了搜索引擎技术的分类以及结构特点,其次介绍了三种站内搜索技术并对其做了比较,并且对现有的Web2.0社区的站内搜索技术进行了详细分析,表明其优势所在和存在的问题,为面向Web2.0社区的站内搜索引擎的设计及实现做好铺垫。然后,基于搜索技术的思想,本文详细阐述了Web2.0社区站内搜索引擎的总体结构,重点介绍了分词技术和搜索排名技术。在分词技术中,主要是对现有的分词技术以及词典技术进行改进,使其符合Web2.0文档的结构特点,并且在分词效率上有明显的提高。在搜索排名技术中,提出了对现有搜索排名技术进行改进,使其符合Web2.0文档结构特点。应用于Web2.0社区站内搜索引擎中的排序算法,主要包含两部分内容:基于内容分析的排序算法和基于链接结构的排序算法。最后,将站内搜索引擎在基于Web2.0技术的开源项目开发平台——Trac平台上进行了实现,并且针对该搜索引擎进行了性能及功能测试,验证课题工作的有效性和可用性。论文完成的工作成果是863“开源软件IP资源库关键技术及系统”的重要组成部分,具有重要的理论和现实意义
论文目录
摘要ABSTRACT第一章 绪论1.1 引言1.2 课题背景1.3 课题研究内容1.4 论文的组织第二章 相关研究2.1 搜索引擎概述2.1.1 搜索引擎的历史2.1.2 搜索引擎的分类2.1.3 搜索引擎的组成2.2 Google 和百度技术特点2.2.1 Google 搜索技术特点2.2.2 百度搜索技术特点2.3 站内搜索技术2.4 Web2.0 社区的站内搜索引擎介绍2.4.1 Web2.0 技术2.4.2 典型Web2.0 社区的站内搜索介绍2.5 本章小结第三章 面向Web2.0 社区站内搜索引擎的结构研究3.1 面向Web2.0 社区搜索机制的基本要求3.2 面向Web2.0 社区站内搜索引擎的架构3.2.1 触发器3.2.2 语法分析器3.2.3 索引器3.2.4 检索器3.2.5 用户接口3.3 面向Web2.0 社区站内搜索引擎的工作流程3.4 面向Web2.0 社区站内搜索引擎的存储结构3.5 本章小结第四章 基于Web2.0 文档的混合模式匹配算法研究4.1 中文分词理论模型4.2 中文分词算法研究4.2.1 基于字符串匹配的分词方法4.2.2 基于理解的分词方法4.2.3 基于统计的分词方法4.3 中文分词词典机制4.3.1 基于整词二分的分词词典机制4.3.2 基于TRIE 索引树的分词词典机制4.3.3 基于逐字二分的分次词典机制4.3.4 三种分词词典机制的比较4.4 基于Web2.0 文档分词算法4.4.1 问题描述4.4.2 Wiki 的语法4.4.3 面向Web2.0 社区站内搜索引擎分词词典设计4.4.4 面向Web2.0 社区站内搜索引擎分词算法设计4.5 本章小结第五章 面向 Wiki 结构的站内搜索引擎排序算法研究5.1 搜索引擎三大定律5.1.1 相关性定律5.1.2 人气质量定律5.1.3 自信心定律5.2 Web2.0 社区的内容结构5.3 排序算法的设计5.3.1 基于内容分析的排序算法5.3.2 基于链接结构的排序算法5.3.3 面向Web2.0 社区的站内搜索引擎的排序算法实现5.4 本章小节第六章 面向Web2.0 社区站内搜索引擎的实现及评测6.1 测试环境6.1.1 硬件配置6.1.2 软件环境6.2 Ksearch 的实现6.2.1 触发器6.2.2 语法分析器6.2.3 索引器6.2.4 检索器6.2.5 用户接口6.2.6 技术问题6.3 KSearch 的评价指标6.3.1 相对查全率6.3.2 相对查准率6.3.3 响应时间6.3.4 检索的更新速度6.4 实验评测6.4.1 查准率检测6.4.2 响应时间检测6.4.3 检索的更新速度检测6.5 测试结果分析6.5.1 查准率分析6.5.2 响应时间分析6.5.3 检索的更新速度分析6.6 本章小结第七章 结束语7.1 全文工作总结7.2 下一步研究工作展望致谢参考文献作者在学期间取得的学术成果
相关论文文献
标签:站内搜索论文; 分词论文; 排名论文;
面向Web2.0社区的站内搜索引擎技术的研究与实现
下载Doc文档