论文摘要
内容管理的主要目的是把大量的信息资本演化为生产力,而高质量的内容管理系统就需要高质量的内容检索系统为它服务。本课题源于院自立项目“海量信息处理的理论与方法研究”,目的在于设计和实现一个灵活的、可扩展的内容检索子系统,方便多种检索技术的集成和扩展。同时针对结构化、半结构化和无结构化文本,实现一个全文检索子系统。本课题选择向量空间模型作为检索子系统的理论模型,同时因为Lucene是优秀的实现向量空间模型的开源全文检索软件包,我们选择Lucene作为检索子系统的实现基础。向量空间模型将查询和文档切分为代表文档含义的语义单元——标引项,并通过标引项组织和检索索引。Lucene便是通过段、文档、域和项实现了高效的倒排索引结构。针对基于内容的海量数据管理系统的要求,我们在Lucene的倒排索引数据结构之上,引入了散列结构,设计实现了基于散列表的Barrel_hash倒排索引。并利用散列表的一次定位技术,优化了原Lucene基于“比较”操作的词库查找方式。利用向量空间模型中权重和相似度计算算法,计算和排序查询结果。通过实验表明,基于散列表的倒排索引结构在倒排索引更新和查询优化方面均有好的表现。
论文目录
表目录图目录摘要ABSTRACT第一章 绪论1.1 课题背景1.2 国内外研究历史与现状1.3 课题主要研究工作及论文结构1.3.1 论文的主要工作1.3.2 论文的结构第二章 信息检索技术分析2.1 信息检索的定义与信息检索模型2.1.1 信息检索的定义2.1.2 信息检索模型2.1.3 信息检索模型的选择2.2 信息检索系统评价2.3 文本检索与Web搜索引擎2.3.1 文本检索2.3.2 Web搜索引擎第三章 全文检索软件包Lucene3.1 索引的结构概念3.2 索引文件的格式描述3.3 Lucene结构的组织第四章 基于内容的海量数据管理系统检索子系统的分析与设计4.1 基于内容的海量数据管理系统整体框架4.2 海量数据管理对全文检索子系统的需求4.3 检索子系统的分层模型4.4 检索子系统框架设计hash倒排索引数据结构设计'>4.5 Barrelhash倒排索引数据结构设计hash的设计'>4.6 wordIDhash的设计第五章 检索子系统的实现5.1 实现技术Hash的实现'>5.2 桶式散列表倒排索引数据结构BarrelHash的实现5.3 倒排索引的创建5.4 倒排索引列表的插入5.5 倒排索引的更新5.6 倒排索引性能调优5.6.1 调整索引性能5.6.2 在内存中建立索引5.6.3 索引优化5.7 查询优化5.7.1 检索的实现流程5.7.2 词库及查找方法5.7.3 散列法查找5.8 相关度计算5.8.1 查询结果与查询条件之间在关键字频率分布上的相关度的计算5.8.2 CMS检索子系统用户界面及相关度排序第六章 实验测试与结果分析6.1 索引更新性能及实验结果分析6.1.1 查询时间开销6.1.2 空间开销6.1.3 更新时间开销6.1.4 实验结果及分析6.2 查询优化实验结果及分析结束语参考文献作者简历 攻读硕士学位期间完成的主要工作致谢
相关论文文献
标签:内容管理系统论文; 全文检索论文; 桶式散列论文; 索引论文;