基于形式概念分析与关键词加权的用户查询词扩展研究

基于形式概念分析与关键词加权的用户查询词扩展研究

论文摘要

随着信息技术的飞速发展,互联网上新的网页每天以惊人的速度在增长,这为满足用户检索信息提供了足够大的空间,但是想找到满足需求的信息也越来越成为困扰用户的一个问题。搜索引擎作为一种网上信息服务系统,为用户在Internet上查找信息提供了方便。用户在使用搜索引擎进行信息查找时,通常都是向搜索引擎提交一系列的查询词,但是由于自然语言的模糊性,用户提交的这些初始查询词并没有被搜索引擎准确理解,导致搜索引擎返回的信息中有些与用户的查询意图是不相关的,甚至有些还会严重偏离用户的搜索主题。解决词不匹配问题成为信息检索领域中十分重要的研究课题,查询扩展是解决词不匹配问题的有效技术。为了更好地解决查询词扩展技术存在的问题,论文结合形式概念分析( Formal Concept Analysis )与关键词加权进行了查询词扩展的研究。论文的主要研究内容归纳如下:1.提出一种对查询扩展源进行优化的方法。优化的基本思想是:首先分别对用户相关反馈过程中得到的文档和由搜索引擎返回的文档集中那些不同于用户相关反馈过程中得到的文档进行分析,运用形式概念分析的知识建立两个概念格( Concept Lattice ) ,为了区分,就把这两个概念格分别称之为“用户概念格”和“挖掘概念格”,然后通过计算概念相似值,在“挖掘概念格”中找出与“用户概念格”相似度较高的概念,最后抽取出这些概念的外延,并将它们加入到用户选择的文档集合中去,达到优化查询扩展源的目的。2.提出一种通过给关键词加权进行查询词扩展的方法。在这种方法中,首先把用户初始查询和查询扩展源中的文档转化为向量,通过计算向量之间的相似度得到文档与查询的相似权值,接着分别在单个文档和整个文档集中分析词的权重,然后把这些权重值进行合理的结合得到词的最终权重,最后选取那些权重值大的词作为查询扩展词。借助这种方法,可以在整个文档集中抽取出质量较高的词作为查询扩展词。论文最后通过20组不同主题的用户查询词以及搜索引擎对每组查询词返回的前50个网页进行实验验证。实验数据表明:论文提出的方法具有较大的实际应用价值,它能够明显地提高搜索引擎的准确率和召回率。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 国内外研究现状
  • 1.1.1 搜索引擎发展现状
  • 1.1.2 查询词扩展技术研究现状
  • 1.2 查询词扩展技术存在的问题
  • 1.3 研究背景和意义
  • 1.4 论文主要内容与结构
  • 2 基于形式概念分析的查询词扩展源优化策略
  • 2.1 形式概念分析
  • 2.2 优化查询词扩展源
  • 2.3 概念相似度计算方法
  • 2.3.1 基于距离的概念相似度计算方法
  • 2.3.2 基于概念内涵和外延的相似度计算方法
  • 2.3.3 本文提出的概念相似度计算方法
  • 2.4 查询扩展源优化效果验证
  • 2.5 本章小结
  • 3 基于关键词加权的查询词提取策略
  • 3.1 停用词
  • 3.2 关键词加权
  • 3.3 查询词的提取
  • 3.3.1 查询词提取过程
  • 3.3.2 查询词提取算法
  • 3.3.3 向量相似度计算方法
  • 3.4 本章小结
  • 4 实验及结果分析
  • 4.1 系统实现
  • 4.1.1 开发环境
  • 4.1.2 数据结构及典型实现代码
  • 4.2 实验过程
  • 4.2.1 实验数据
  • 4.2.2 实验步骤
  • 4.3 实验结果
  • 4.3.1 实验评价指标
  • 4.3.2 实验参数设置
  • 4.3.3 实验效果对比
  • 4.4 本章小结
  • 5 结论与展望
  • 5.1 本文结论
  • 5.2 研究展望
  • 参考文献
  • 攻读硕士期间发表论文及科研项目
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于形式概念分析与关键词加权的用户查询词扩展研究
    下载Doc文档

    猜你喜欢