基于改进向量空间模型的网络信息检索技术研究

基于改进向量空间模型的网络信息检索技术研究

论文题目: 基于改进向量空间模型的网络信息检索技术研究

论文类型: 硕士论文

论文专业: 计算机技术

作者: 林冬雪

导师: 朱征宇,陈耀家

关键词: 信息检索,向量空间模型,特征项,查全率,查准率

文献来源: 重庆大学

发表年度: 2005

论文摘要: 互联网技术的迅速发展,使Web已经成为世界范围内信息共享和信息传播的最主要渠道之一,其网上的文本数量也成指数级增长。如何能够快速和精确地在浩瀚的信息海洋中检索到用户所需的信息已成为当今重要的研究课题。文本信息检索是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。在进行信息检索时,与用户需求匹配的信息经常不在检索结果内,而大量用户不需求的信息,却占用检索结果的相当大的一部份。因此,改进文本信息检索的检索性能,提高检索质量也成为了亟待解决的问题。本论文的主要研究目的,针对可能影响检索效力的一个容易被忽略的因素---标题位置特征项,针对这一目的在传统向量空间模型的基础上提出一种改进向量空间模型。改进的向量空间模型对特征项的权重问题进行了研究,提出了结合特征项出现位置的权重计算方法。该法可以提高查询式与文档的匹配度,进而提高检索系统的查准率。论文提出了多层向量空间模型的概念,新模型可较好地解决传统向量空间模型维数过大的问题和不能区分关键词位置语义的问题,应有助与针对提高检索系统的查询速度和精度问题的研究。论文还提出了改进的查询条件与文档的相似度计算方法,在相似度的计算式中加入了可调参数η,根据特征项位置表达文档主题的能力不同,设定不同的η值。论文提出了一种可调节的过滤阈值(相关门槛值)设定方法,使用户可根据需要选择过滤精确等级来调节兴趣网页的输出质量。本文在传统向量空间模型基础上提出的改进向量空间模型算法,通过初步实验表明该算法具有较高的查全率和查准率,并可改善Web信息检索系统输出结果的排序能力。

论文目录:

中文摘要

英文摘要

1 绪论

1.1 论文研究目的及意义

1.2 国内外现状综述

1.2.1 Web 搜索引擎

1.2.2 Web 信息检索技术

1.2.3 信息检索模型

1.2.4 相关研究工作介绍

1.3 论文研究的内容

1.4 本章小结

2 传统向量空间模型及存在问题

2.1 基本概念

2.1.1 文本的向量空间表示

2.1.2 特征项选择与赋权

2.1.3 相似度

2.2 传统向量空间模型

2.3 传统向量空间模型分析

2.4 本章小结

3 一种改进的向量空间模型

3.1 基本思路介绍

3.1.1 丁璇等人的工作介绍

3.1.2 丁璇的工作优点及不足

3.1.3 改进思路

3.2 改进的向量空间模型

3.2.1 相关概念的引入

3.2.2 改进的模型特点

3.3 相关门槛值的确定

3.3.1 η值的确定

3.3.2 查询结果的过滤(相关门槛值θ)

3.4 本章小结

4 基于改进向量空间模型的原型系统框架

4.1 实验原型系统技术

4.1.1 文档的收集

4.1.2 文档的预处理

4.1.3 文档与查询的表示

4.1.4 相关度计算

4.2 实验原型系统结构

4.2.1 系统结构模型

4.2.2 主要算法描述

4.2.3 复杂度分析

4.3 本章小结

5 实验与分析

5.1 实验环境说明

5.2 检索的评估指标

5.3 实验结果与分析

5.4 本章小结

6 总结

致谢

参考文献

附录:作者在攻读硕士学位期间发表的论文目录

独创性声明

学位论文版权使用授权书

发布时间: 2006-12-05

参考文献

  • [1].基于向量空间的信息检索算法研究[D]. 王梁.长春理工大学2009
  • [2].信息检索中的查询扩展技术研究[D]. 李新友.广西师范大学2010
  • [3].基于主题模型的藏汉跨语言信息检索查询扩展研究[D]. 高璐.中央民族大学2017
  • [4].潜在语义分析在跨语言信息检索中的应用研究[D]. 闭剑婷.广西大学2008
  • [5].基于心智模式的信息检索行为导向交互设计应用研究[D]. 周恩高.江南大学2012
  • [6].私有信息检索中若干关键技术的研究[D]. 李文娟.安徽大学2012
  • [7].领域本体的构建及其在信息检索中的应用研究[D]. 郭嘉琦.北京邮电大学2007
  • [8].基于安全云的私有信息检索关键技术研究与实现[D]. 刘昺侯.电子科技大学2014
  • [9].跨汉蒙语言信息检索中的查询项翻译方法研究[D]. 姜鑫.内蒙古大学2011
  • [10].专利信息检索实验系统的研究与实现[D]. 林晖.北京邮电大学2009

相关论文

  • [1].基于向量空间模型的网页信息过滤方法研究[D]. 吴新涛.大连理工大学2008
  • [2].基于个性化的石油专业网络信息检索技术研究[D]. 王默.西南石油大学2006
  • [3].基于向量空间模型的文本分类技术研究[D]. 苏力华.西安电子科技大学2006
  • [4].面向大规模信息检索的中文分词技术研究[D]. 王思力.中国科学院研究生院(计算技术研究所)2006
  • [5].中文信息检索索引单元的研究[D]. 韩咏.哈尔滨理工大学2006
  • [6].提高信息检索性能的有效机制与算法研究[D]. 杨哲.中国科学院研究生院(计算技术研究所)2004
  • [7].中文信息检索中相关算法的研究[D]. 薛静.辽宁科技大学2007
  • [8].组合向量空间模型和语言模型的信息检索系统[D]. 杨永火.天津大学2006
  • [9].网络信息检索效果评价及其优化研究[D]. 高松.吉林大学2007
  • [10].基于N层向量空间模型的网络信息检索平台[D]. 刘志为.天津大学2005

标签:;  ;  ;  ;  ;  

基于改进向量空间模型的网络信息检索技术研究
下载Doc文档

猜你喜欢