基于查询拓展和聚类技术的资源检索系统的研究与应用

基于查询拓展和聚类技术的资源检索系统的研究与应用

论文摘要

随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息己经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。为了提高Web信息检索的准确率,对资源所显现的语义与结构进行分析,本文分析了中文分词方法的特点,采用一元、二元、词表分词索引相结合的方法,为提高后续检索效率提供有价值的帮助。为了提高用户查询需求的有效性,提出对查询条件进行概念扩展,采用了多种查询策略相结合的方式,对此进行深入的研究,对提高Web信息检索的查全率和查准率是有效而且必要的。用户进行Web信息检索的查询请求一旦过于宽泛、模糊甚至不够准确,得到的结果数目将会相当巨大,用户因时间所限不可能查看每一个结果。因此,通过相关研究,对概念检出的文档进行上下文聚类,采用STC对聚类进行有效的描述,利用检索上下文中的分类描述进行潜在概念的获取,通过SVD技术对构建的矩阵进行特征降维和聚类,实现了资源检索的实时聚类,将检索结果形成类别呈现出来,作为一种自动的、即时动态交互,能极大地提高用户检索效率,同时有益于帮助用户形成更为清晰的查询,对于以用户为中心的Web信息检索有很大的价值。本文最后介绍了上海教育资源库信息检索系统的设计和实现架构,主要组成模块的相关技术,对多种检索策略进行了多样本的查询对比和分析,实验证明检索算法提高了信息检索的针对性和聚焦度,且在此结果上的在线聚类能较好地改善信息检索结果的展现。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 信息检索技术的研究现状
  • 1.3 研究的目的及意义
  • 1.4 本文的主要结构和内容
  • 1.5 本章小结
  • 第二章 信息检索的相关理论与关键技术
  • 2.1 信息检索的基本概念
  • 2.2 信息检索模型
  • 2.2.1 基于关键词的检索
  • 2.2.2 基于概念的检索
  • 2.2.3 基于内容的检索
  • 2.3 Web 信息检索
  • 2.3.1 全文信息检索
  • 2.3.2 Web全文信息检索
  • 2.3.3 搜索引擎技术
  • 2.3.4 全文检索引擎工具包
  • 2.4 Web 文本聚类技术
  • 2.5 检索系统的性能评价
  • 2.6 本章小结
  • 第三章 基于概念的检索技术研究
  • 3.1 文本预处理
  • 3.1.1 文档解析
  • 3.1.2 Stopping和Stemming
  • 3.1.3 中文分词
  • 3.2 检索策略
  • 3.2.1 同义词扩展
  • 3.2.2 查询方法
  • 3.3 本章小结
  • 第四章 基于检索上下文的聚类技术研究
  • 4.1 检索上下文的分析模型
  • 4.2 聚类过程
  • 4.2.1 特征提取和特征选择
  • 4.2.2 聚类算法
  • 4.3 上下文聚类
  • 4.3.1 基本策略
  • 4.3.2 文档特征项
  • 4.3.3 聚类描述
  • 4.3.4 实例
  • 4.4 本章小结
  • 第五章 应用案例:上海教育资源库信息检索系统
  • 5.1 项目背景
  • 5.2 系统架构
  • 5.3 系统设计和实现
  • 5.3.1 元信息描述与解析
  • 5.3.2 文档索引模块
  • 5.3.3 检索处理与展现模块
  • 5.3.4 在线聚类模块
  • 5.4 实验结果与实例分析
  • 5.4.1 索引时间比较
  • 5.4.2 检索比较
  • 5.4.3 聚类模块
  • 5.4.4 检索性能比较
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 进一步工作和展望
  • 参考文献
  • 致谢
  • 攻读学位期间已发表或录用的论文
  • 攻读学位期间参加的科研项目
  • 相关论文文献

    标签:;  ;  

    基于查询拓展和聚类技术的资源检索系统的研究与应用
    下载Doc文档

    猜你喜欢