论文题目: 基于字节流的全文检索技术研究与实现
论文类型: 硕士论文
论文专业: 计算机应用
作者: 普东航
导师: 唐常杰
关键词: 全文检索,关键词检索,字节流检索,交叉链表,倒排后继表,相邻地址
文献来源: 四川大学
发表年度: 2005
论文摘要: 全文检索是当前信息检索技术的重要研究方向,是从大容量文档库中找寻所需信息的最有效手段。实现全文检索系统的核心是建立有效的全文检索模型,目前全文检索模型根据索引项的不同可分为基于关键词的方法和基于字符的方法两类模型,基于关键词的方法检索速度快,容易支持同义词查询,索引空间效率好,很多商业应用的全文检索模型都是使用基于关键词的方法。但查准率和查全率不够高,不能支持整句或文档片断的查询,对中文的处理不方便,在中文分词方面表现欠佳。 近年来,我国学术界提出的基于单汉字(Single Chinese Character)的全文检索方法得到重视,本文将之扩展为能适用各种文件的基于字节流的方法。它能弥补基于关键词检索方法的上述缺点,检索速度介于全文扫描和关键词方法之间,但目前的一些检索模型和基于关键词的方法相比,性能还较低。 为了解决时空间效率的问题,本文做了下列工作: (1) 分析了全文检索技术的基本方法以及几种常用的全文检索模型,并对基于字节流的全文检索技术的优势和不足进行了分析; (2) 提出并实现了交叉链表(Cross Linked Model)CLM、倒排后继表(Inversed Subsequence Model)ISM、相邻地址(Adiacent Address Model)AAM三种基于字节流的全文检索模型。 (3) 对提出的三种模型进行了详细的性能分析,在5963个汉字文档数据上做了6组实验,通过实验测试和分析了各模型的特点、性能及其适用范围。 (4) 对比分析了基于关键词和基于字节流的全文检索方法。分析了基于字
论文目录:
摘要
Abstract
目录
0 引言
1 全文检索综述
1.1 全文数据库和全文检索
1.2 全文扫描
1.3 关键词检索
1.3.1 常用检索模型
1.3.2 基于关键词的中文全文检索
1.3.2.1 中文分词处理技术
1.3.2.2 中文分词的关键问题
1.4 字节流检索
2 基于字节流全文检索的研究
2.1 应用价值
2.2 基于单字的倒排表模型及其优化
2.2.1 索引文件的压缩
2.2.2 检索运算的优化
2.3 目前急待解决的问题和本文的目标
3 交叉链表检索模型CLM(CROSS LINKED MODEL)
3.1 模型设计思想
3.1.1 文档的多连通有向图
3.1.2 变化图
3.1.3 查询原理
3.2 索引及其存储结构
3.2.1 文档的交叉链表
3.2.2 索引存储结构
3.3 模型实现步骤及算法
3.3.1 索引创建算法
3.3.2 原文生成算法
3.3.3 实现查询的数据结构和算法
4 倒排后继表检索模型ISM(INVERTED SUBSEQUENCE LIST MODEL)
4.1 模型设计思想
4.1.1 文档的后继图
4.1.2 查询原理
4.2 索引及其存储结构
4.2.1 索引结构
4.2.2 存储结构
4.2.3 查询的优化
4.3 模型实现步骤及算法
4.3.1 索引创建算法
4.3.2 原文生成算法
4.3.3 实现查询的数据结构和算法
5 相邻地址检索模型AAM(ADJACENT ADDRESS MODEL)
5.1 基本定义
5.2 模型设计
5.2.1 索引结构
5.2.2 查询原理
5.2.3 存储结构
5.3 模型实现步骤及算法
5.3.1 索引创建算法
5.3.2 原文生成算法
5.3.3 实现查询的数据结构和算法
6 模型性能分析
6.1 索引空间性能分析
6.1.1 交叉链表检索模型的索引空间性能分析
6.1.2 倒排后继表检索模型的索引空间性能分析
6.1.3 相邻地址检索模型的索引空间性能分析
6.1.4 索引空间性能比较
6.2 检索时间性能比较分析
6.3 原文生成时间性能比较分析
7 实验和结果分析
7.1 实验环境
7.2 实验内容和结果分析
7.2.1 总体性能对比实验(实验一)
7.2.2 查询子串长度对检索时间性能的影响(实验二)
7.2.3 文档大小对检索时间性能的影响(实验三)
7.2.4 文档数量对检索时间性能的影响(实验四)
7.2.5 文档大小对原文生成时间性能的影响(实验五)
7.2.6 文档数量对原文生成时间性能的影响(实验六)
7.3 实验总结
8 结束语
参考文献
本文作者在攻读硕士学位期间发表的文章
致谢
发布时间: 2007-01-22
参考文献
- [1].基于微信公众号文章数据的运营系统实现[D]. 宋泽坤.华北电力大学2018
- [2].云环境下多关键词密文搜索技术的研究[D]. 李占飞.安徽大学2018
- [3].云环境下公开可验证的连接关键词检索技术研究[D]. 聂凯.西安电子科技大学2017
- [4].全文检索技术的研究和应用[D]. 张帅.北京邮电大学2012
- [5].面向在线评论的关键词抽取和知识关联研究[D]. 韩金波.大连理工大学2017
- [6].全文检索技术的研究与实现[D]. 陈洪猛.北京工业大学2008
- [7].中文全文检索技术研究[D]. 于波.华中师范大学2003
- [8].分布式中文全文检索技术的研究与实现[D]. 李杨.中南民族大学2009
- [9].单汉字全文检索技术研究[D]. 刘雪芹.河北工业大学2005
- [10].教育资源共享系统中全文检索技术的研究[D]. 陈震伟.西安电子科技大学2008
相关论文
- [1].中文自动分词法在全文检索中的研究及应用[D]. 刘婷.南京航空航天大学2007
- [2].基于Lucene的全文检索系统模型的研究[D]. 黄杰.暨南大学2007
- [3].基于全文数据库的全文检索模型研究[D]. 郭琦娟.中国石油大学2007
- [4].全文检索技术的研究与实现[D]. 陈洪猛.北京工业大学2008
- [5].中文全文检索系统中索引的研究[D]. 赵会杰.北京交通大学2007
- [6].基于SQL Server2000的中文全文检索[D]. 张维勤.西安建筑科技大学2007
- [7].基于倒排索引的全文检索技术研究[D]. 刘兴宇.华中科技大学2004
- [8].基于Lucene的全文检索系统的研究与应用[D]. 张校乾.大连理工大学2005
- [9].单汉字全文检索技术研究[D]. 刘雪芹.河北工业大学2005
- [10].中文全文检索技术研究[D]. 于波.华中师范大学2003