基于聚类文档词位置的查询扩展的研究与实现

基于聚类文档词位置的查询扩展的研究与实现

论文摘要

随着网络技术的迅速发展,搜索引擎已经成为用户获取网络信息的主要途径。然而,用户在搜索引擎上进行信息查询时,往往并不关心查询出多少结果,更加关心的是查询的网页是否与自己的需求相关,而且用户的搜索关键词往往比较短,返回了大量无关的结果。查询扩展正是解决信息查询时出现信息过载、信息迷向和词不匹配等问题的关键技术之一,本文研究的基于聚类文档词位置的查询扩展,具有重要的理论意义和实际价值。本文在介绍了课题的研究背景,包括信息检索的概念、性能评价标准、检索模型等,概述了查询扩展技术的相关知识的基础上,针对伪相关反馈技术存在严重依赖初次检索文档的问题,本文提出了利用改进的特征提取方法和改进的KNN聚类算法,采用基于距离的文档频率特征提取法算法,提取特征项;采用改进的TF-IDF-Dis权重计算方法,来计算特征项的特征权重。将反馈文档尽量的构造为与查询相关的向量。通过改进的KNN算法过滤掉噪音文档,找出与查询相关的主导性文档。在提取主导性反馈文档的基础上,基于离查询词更近的词与查询词更加相关的假设,本文分析查询词和反馈文档词之间的位置关系,将提取扩展词的概率公式分解为与文档位置有关的概率模型,构造高斯核函数作为词与词之间的距离函数,将离查询关键词近的词赋予更高的权重,从中挑选出权重高的词语作为查询词的扩展词。实验结果表明,本文提出的基于聚类文档词位置的伪相关反馈查询扩展的准确率高于传统的伪相关反馈查询扩展,达到了比较满意的效果,提高检索系统的平均准确率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 研究内容
  • 1.4 论文组织结构
  • 第2章 关键技术
  • 2.1 信息检索技术
  • 2.1.1 信息检索的背景概述
  • 2.1.2 信息检索的体系结构
  • 2.1.3 信息检索的常用术语
  • 2.2 信息检索的模型
  • 2.3 信息检索的评价
  • 2.4 聚类算法
  • 2.5 查询扩展技术
  • 2.6 本章小结
  • 第3章 基于MKNN的反馈文档聚类
  • 3.1 反馈文档聚类流程
  • 3.2 反馈文档预处理过程
  • 3.2.1 中文分词及词位置统计
  • 3.2.2 停用词处理
  • 3.3 反馈文档的特征项选取及计算
  • 3.3.1 改进的DD特征选择
  • 3.3.2 文档的向量表示
  • 3.3.3 改进的TF-IDF-Dis特征权重的计算方法
  • 3.3.4 文本相似度
  • 3.4 基于MKNN的反馈文档聚类
  • 3.5 本章小结
  • 第4章 词位置相关反馈模型
  • 4.1 查询扩展的语言模型框架
  • 4.2 词位置相关反馈模型的建立
  • 4.2.1 文档估计
  • 4.2.2 查询估计
  • 4.3 词位置建模
  • 4.4 距离函数的选取
  • 4.5 本章小结
  • 第5章 实验
  • 5.1 实验数据源
  • 5.2 实验评价标准
  • 5.3 参数设置
  • 5.4 实验结果与分析
  • 第6章 总结
  • 6.1 论文总结
  • 6.2 进一步工作
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].信息检索中查询扩展技术的相关研究[J]. 信息与电脑(理论版) 2020(17)
    • [2].基于深度学习的查询扩展研究[J]. 情报学报 2019(10)
    • [3].跨语言查询扩展技术研究进展[J]. 电子技术与软件工程 2017(23)
    • [4].基于不同信息资源专利查询扩展方法的研究[J]. 情报学报 2016(06)
    • [5].专利查询扩展的词向量方法研究[J]. 计算机科学与探索 2018(06)
    • [6].基于多语义关系的个性化查询扩展方法[J]. 模式识别与人工智能 2017(11)
    • [7].基于本体和用户查询意图的查询扩展方法研究[J]. 情报科学 2015(05)
    • [8].医学领域中基于注意力机制的查询扩展[J]. 计算机系统应用 2019(08)
    • [9].一种个性化查询扩展方法[J]. 计算机工程与应用 2012(02)
    • [10].基于云计算技术的查询扩展应用浅论[J]. 内蒙古科技与经济 2011(22)
    • [11].一种改进的基于伪相关反馈的查询扩展[J]. 微计算机信息 2009(15)
    • [12].运用查询扩展技术的网民言论与舆论话题相关性研究[J]. 计算机应用研究 2011(03)
    • [13].领域本体的查询扩展和检索研究[J]. 山东冶金 2019(03)
    • [14].数字档案检索的查询扩展方法[J]. 广西科学院学报 2010(04)
    • [15].基于本体和局部分析查询扩展法[J]. 信息技术与信息化 2019(09)
    • [16].基于深度强化学习的查询扩展模型研究[J]. 情报理论与实践 2019(09)
    • [17].一种基于词向量的模糊查询扩展方法[J]. 四川师范大学学报(自然科学版) 2019(01)
    • [18].基于深度学习的概念语义空间查询扩展研究[J]. 软件导刊 2018(05)
    • [19].基于查询扩展词条加权的文本检索研究[J]. 计算机工程与科学 2011(01)
    • [20].基于HowNet查询扩展方法的探究[J]. 计算机应用与软件 2018(03)
    • [21].跨语言信息检索中的查询扩展[J]. 心智与计算 2009(01)
    • [22].一种基于含糊同义词的查询扩展方法[J]. 计算机应用与软件 2011(12)
    • [23].基于权重查询词的XML结构查询扩展[J]. 软件学报 2008(10)
    • [24].P2P环境下数字图书馆系统基于语义的节点查询扩展研究[J]. 现代情报 2014(07)
    • [25].个性化的社会标签查询扩展技术研究[J]. 计算机科学与探索 2010(09)
    • [26].一种融合语义资源的生物医学查询理解方法[J]. 计算机学报 2019(10)
    • [27].面向企业信息检索的语义扩展查询方法[J]. 情报学报 2019(07)
    • [28].基于领域本体的语义检索关键技术研究[J]. 软件工程师 2013(09)
    • [29].基于查询词扩展的中文垃圾短信检索[J]. 计算机工程 2011(08)
    • [30].一种基于视觉词典优化和查询扩展的图像检索方法[J]. 自动化学报 2018(01)

    标签:;  ;  ;  ;  ;  

    基于聚类文档词位置的查询扩展的研究与实现
    下载Doc文档

    猜你喜欢