信息检索中的排序与相关度计算研究

信息检索中的排序与相关度计算研究

论文摘要

随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息检索的研究可以帮助人们有效的找到感兴趣的信息,帮助用户发现对自己有用的知识。信息检索的核心问题就是预测文档的相关度,并按照其相关度对文档进行排序,一般而言,排在最顶端的文档被认为最相关。因此,相关性的计算和排序算法就成为信息检索的核心。传统的信息检索主要采用向量空间模型计算相关度,该模型也多用于Web信息检索。但Web网页与普通文档相比,有很多独特的特征,如单个Web网页具有URL、HTML Tag、Anchor Text、入度;同时Web网页之间具有超链接,分析这种超链接关系,可以改进检索结果的排序效果。而Deep Web是一种特殊的Web资源,其信息存储在数据库中,用户只能通过一些含表单的网页对其访问,但是这些网页中所含内容较少,网页之间链接关系较少,若采用一般的Web检索相关度计算方法,会得到很差的效果。本文的研究主要着眼于Web和Deep Web信息检索领域,有以下几个方面的贡献:1.实现了一个基于向量空间模型的全文检索系统,对如何利用Web网页的HTML标签、锚文本、入度特征来改进相关度计算进行了研究。并针对Web网页的URL特征,给出了对检索结果重排序的方法。该系统在国内文本检索会议(SEWM2007)中表现较好,取得了一定的成绩。2.针对Web网页之间的链接特征,提出了一种面向主题的页面重要度计算方法,新算法基于PageRank超链接分析算法,考虑了网页内容与主题的相关度、主题信息对网页间链接的分类和web页面自身重要度等因素对网页重要度计算的影响。实验证明针对具体领域,该算法在P@10和用户满意度等方面优于PageRank算法。3.给出了计算Deep Web数据库之间语义相关度的两种算法。第一个算法基于向量空间模型,但在计算数据库表之间的语义相关度时,综合考虑了含有数据库表的网页内容和数据库表之间的语义距离。且利用模糊分层集合,把同义和近义的标记词进行归一,依据新的词频计算方法产生对数据库表的向量表示。第二个算法采用本体和模糊集理论,将向量表示的数据库表转化为概念模糊集的形式,利用模糊集的匹配度来计算数据库表之间的语义相关度。分别采用分类算法和聚类算法来检验两种算法的效果。实验表明,两种新的语义相关度算法比余弦相似度算法表现好。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 相关研究及发展
  • 1.3 本文的工作
  • 1.4 本文的组织
  • 第二章 信息检索
  • 2.1 引言
  • 2.2 信息检索的基本原理
  • 2.3 信息检索模型
  • 2.4 信息检索应用
  • 2.4.1 分类与聚类
  • 2.4.2 Web信息检索
  • 2.4.3 Deep Web信息检索
  • 2.5 评价指标
  • 2.6 本章小结
  • 第三章 面向Web数据的全文检索系统
  • 3.1 背景介绍
  • 3.2 系统描述
  • 3.3 基于Web多特征的相关度及排序算法
  • 3.4 评测结果及分析
  • 3.5 本章小结
  • 第四章 面向主题的网页排序算法
  • 4.1 背景介绍
  • 4.2 基于链接特征的网页排序及相关研究
  • 4.3 面向主题的网页排序算法
  • 4.4 实验
  • 4.5 本章小结
  • 第五章 Deep Web数据库表相关度计算方法
  • 5.1 背景介绍
  • 5.2 基本概念
  • 5.3 利用分层模糊集合的相关度计算方法
  • 5.4 利用本体和模糊集的相关度计算方法
  • 5.5 本章小结
  • 第六章 总结和探讨
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    • [1].关于“信息检索学”是否存在问题的探讨[J]. 中国索引 2012(03)
    • [2].从新视角开展信息检索建模研究[J]. 中国出版 2020(08)
    • [3].在线健康信息检索行为实验研究内容梳理及启示[J]. 图书情报工作 2020(03)
    • [4].情境感知视角下的信息检索发展研究[J]. 图书情报导刊 2020(04)
    • [5].计算机信息检索对图书情报的影响分析[J]. 中国新通信 2020(17)
    • [6].任务情境下的儿童信息检索行为研究[J]. 图书馆理论与实践 2019(05)
    • [7].企业用户信息检索模式研究[J]. 中国管理信息化 2019(18)
    • [8].探讨现代信息检索对图书馆信息服务的影响[J]. 办公室业务 2019(22)
    • [9].“信息检索与利用”混合式教学中实践教学作业设置探讨[J]. 江苏科技信息 2018(13)
    • [10].基于蓝墨云班课的翻转课堂教学实践——以高职“信息检索”课程为例[J]. 中国信息技术教育 2017(01)
    • [11].信息检索在公安管理中的应用探讨[J]. 山西青年 2017(02)
    • [12].检索是一种素养[J]. 大学生 2017(07)
    • [13].自学检索[J]. 大学生 2017(10)
    • [14].信息检索服务小微企业的探析——基于“大众创业、万众创新”背景[J]. 科技创业月刊 2016(04)
    • [15].网络档案信息检索的元数据设计[J]. 山西档案 2020(01)
    • [16].巧用智能手机拓展高职信息检索课堂[J]. 北极光 2019(03)
    • [17].研究生与本科生信息检索焦虑研究[J]. 图书馆学刊 2015(11)
    • [18].网络环境下的图像信息检索行为的现状调查及优化对策[J]. 科教文汇(上旬刊) 2014(10)
    • [19].微信辅助信息检索教学的SWOT分析[J]. 中国新通信 2014(24)
    • [20].开放网络知识的信息检索与数据挖掘探究[J]. 电脑迷 2016(09)
    • [21].高校图书馆读者信息检索竞赛活动研究[J]. 新世纪图书馆 2014(10)
    • [22].跨语言信息检索在搜索引擎中的应用[J]. 中小企业管理与科技(上旬刊) 2013(04)
    • [23].艺术信息检索[J]. 大舞台 2012(03)
    • [24].我国企业信息检索存在的通病与对策[J]. 重庆与世界(学术版) 2012(07)
    • [25].财经院校经济信息检索与利用教育模式的构建[J]. 高等财经教育研究 2012(04)
    • [26].网络环境下高职院校信息检索教育的思考[J]. 科技信息 2009(31)
    • [27].2006-2007年国外用户信息检索行为研究述评[J]. 图书馆建设 2008(03)
    • [28].医科院校信息检索教育形式多样化的研究[J]. 科技情报开发与经济 2008(18)
    • [29].浅谈信息检索的现状与发展[J]. 电脑知识与技术 2018(11)
    • [30].面向信息检索的术语服务应用研究[J]. 内蒙古科技与经济 2018(11)

    标签:;  ;  ;  ;  ;  

    信息检索中的排序与相关度计算研究
    下载Doc文档

    猜你喜欢