生物医学领域检索系统查询扩展技术研究

生物医学领域检索系统查询扩展技术研究

论文摘要

随着计算技术和生物技术的进步,当前生物医学相关的文献正在以前所未有的速度增长。著名的MEDLINE数据库已经收集了自1965年以来的近1100万篇的生物医学相关文献,并且以每天1500篇的速度在增长。这些文献中蕴含了大量的知识。研究人员可以利用不同文献中的研究成果,来寻找疾病和基因之间的关系、基因和不同生命功能以及不同基因之间的关系等非常有用的知识。这些知识应用于实际,可以更好地诊断、预防和治疗人类的疾病。但是,人工从海量的文献中发现这些知识几乎是一件不可能的任务。因此,针对海量的生物医药文献的信息检索系统成为相关研究人员的迫切需求。2003年,TREC基因学方面的项目应运而生。本文研究的基础就是TREC 2007年的基因学项目。因此本文首先对TREC做了简要的介绍,并详细介绍了TREC Genomics Track 2007数据源、主题以及评测提交形式。然后讨论和分析了当前主要的信息检索模型,以及本文介绍的生物医药领域检索系统中搭建检索模块用到的Indri工具包。在检索过程中考虑到查询中所使用的术语可能与文档集中使用的术语不匹配而导致一些相关的文档不能被成功地检索出来,影响检索效果,本文提出了两个查询扩展的方法——正规化的同义词查询扩展方法和基于查询结果反馈的查询扩展方法。最后描述了生物医学领域检索系统的整体设计、实现和测试结果。本文重点讨论并实现了以下两个方面的内容:信息检索模型,查询扩展技术。利用以上技术,本文初步实现了生物医学领域检索系统。为了考察本系统的性能以及查询扩展方法对于系统性能的影响,文本设计了相应的实验。实验表明,查询扩展方法对系统的性能会有积极的影响,其中正规化的同义词查询扩展方法相对系统baseline在Document MAP、Aspect MAP、Passage MAP分别提高4.5%、3.4%、2.3%;而基于查询结果反馈的实体查询扩展方法相对系统baseline在Document MAP、Aspect MAP、Passage MAP分别提高19.1%、20.5%、15.8%,其中Document MAP达到0.3445,在参与TREC Genomics Track 2007系统评测的小组的评测结果中排在了第一位。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景
  • 1.2 TREC概述
  • 1.2.1 TREC的研究目标
  • 1.2.2 TREC的主要任务
  • 1.2.3 TREC的研究内容
  • 1.3 TREC Genomics Track
  • 1.3.1 TREC 基因学项目选用的资源
  • 1.3.2 TREC基因学研究项目的主要内容
  • 1.3.3 TREC Genomics Track 2007
  • 1.4 本文研究的主要内容
  • 1.5 本文组织结构
  • 第2章 信息检索模型
  • 2.1 信息检索相关概念
  • 2.2 信息检索的评价
  • 2.3 检索模型
  • 2.3.1 布尔模型
  • 2.3.2 向量空间模型
  • 2.3.3 概率模型
  • 2.3.4 统计自然语言模型
  • 2.4 Indri系统的检索模型
  • 2.5 本章小结
  • 第3章 查询扩展
  • 3.1 基于用户相关反馈的查询扩展
  • 3.1.1 向量空间模型的查询扩展和词语重新加权
  • 3.1.2 概率模型的词语重新加权
  • 3.2 基于局部分析的查询扩展
  • 3.2.1 通过局部聚类的查询扩展
  • 3.2.2 通过局部上下文分析的查询扩展
  • 3.3 基于全局分析的查询扩展
  • 3.3.1 基于相似词典的查询扩展
  • 3.3.2 基于统计词典的查询扩展
  • 3.4 生物医药领域检索系统查询扩展
  • 3.4.1 正规化的同义词查询扩展方法
  • 3.4.2 基于查询结果反馈后的实体查询扩展
  • 3.5 本章小结
  • 第4章 生物医学领域检索系统的设计和实现
  • 4.1 检索系统的搭建
  • 4.2 实验数据的预处理
  • 4.3 索引的建立
  • 4.3.1 Indri系统的历史
  • 4.3.2 Indri系统索引和检索示意图
  • 4.3.3 Indri参数文件
  • 4.3.4 Indri所能处理的文件格式
  • 4.3.5 索引建立
  • 4.4 查询扩展模块
  • 4.4.1 用于实体类型识别的工具
  • 4.4.2 正规化的同义词查询扩展方法
  • 4.4.3 基于查询结果反馈后的实体查询扩展
  • 4.5 本章小结
  • 第5章 系统测试
  • 5.1 评测方法
  • 5.2 实验结果与分析
  • 5.2.1 未经查询扩展的系统评测
  • 5.2.2 经过正规化的同义词扩展后的系统评测
  • 5.2.3 经过基于查询结果反馈的实体查询扩展后的系统评测
  • 5.3 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于数据挖掘技术的智能图书馆云检索系统设计[J]. 现代电子技术 2020(02)
    • [2].从信息化呈现到体系性构建:判例运用视角下判例检索系统的建设与发展[J]. 四川大学学报(哲学社会科学版) 2020(02)
    • [3].收录本刊的国内外部分检索系统[J]. 中国耳鼻咽喉颅底外科杂志 2017(01)
    • [4].浅谈基于词语及句子的手语图片检索系统设计[J]. 才智 2017(25)
    • [5].如何提升小学图书室的管理效能[J]. 吉林教育 2017(23)
    • [6].检索系统(concordance programs)在英语教学中的应用[J]. 报刊荟萃 2017(08)
    • [7].厦门大学2011年度被SCI、EI、ISTP三大检索系统收入论文一览表[J]. 厦门大学学报(自然科学版) 2013(05)
    • [8].工程建设标准强制性条文检索系统即将开通[J]. 福建建材 2012(11)
    • [9].云检索系统的要素分析和结构研究[J]. 图书馆学研究 2011(23)
    • [10].国际常用六大著名检索系统[J]. 昆明冶金高等专科学校学报 2010(03)
    • [11].国外主要联邦检索系统的兴起、现状及发展趋势[J]. 图书馆建设 2009(03)
    • [12].本刊进入的主要检索系统(部分)[J]. 华西医学 2009(05)
    • [13].国际常用六大著名检索系统[J]. 温州职业技术学院学报 2009(02)
    • [14].本刊进入的主要检索系统(部分)[J]. 华西医学 2009(11)
    • [15].厦门大学2006年度被SCIE、EI、ISTP三大检索系统收入论文一览表[J]. 厦门大学学报(自然科学版) 2008(03)
    • [16].收录《信号处理》的检索系统及数据库[J]. 信号处理 2020(01)
    • [17].收录《信号处理》的检索系统及数据库[J]. 信号处理 2020(06)
    • [18].收录《信号处理》的检索系统及数据库[J]. 信号处理 2020(09)
    • [19].试论构建年鉴的检索系统[J]. 福建史志 2018(05)
    • [20].基于本体的家谱知识图谱模型及检索系统[J]. 电子设计工程 2017(12)
    • [21].厦门大学2010年度被SCI、EI、ISTP三大检索系统收入论文一览表 [J]. 厦门大学学报(自然科学版) 2012(04)
    • [22].厦门大学2009年度被SCI、EI、ISTP三大检索系统收入论文一览表[J]. 厦门大学学报(自然科学版) 2011(04)
    • [23].厦门大学2008年度被SCI、EI、ISTP三大检索系统收入论文一览表[J]. 厦门大学学报(自然科学版) 2010(03)
    • [24].基于哼唱的音乐检索系统的研究与探索[J]. 情报杂志 2010(S1)
    • [25].厦门大学2007年度被SCIE、EI、ISTP三大检索系统收入论文一览表[J]. 厦门大学学报(自然科学版) 2009(03)
    • [26].本刊被以下检索系统及数据库收录[J]. 信号处理 2019(12)
    • [27].本刊被以下检索系统及数据库收录[J]. 信号处理 2020(03)
    • [28].本刊被以下检索系统及数据库收录[J]. 信号处理 2020(04)
    • [29].本刊被以下检索系统及数据库收录[J]. 信号处理 2020(05)
    • [30].本刊被以下检索系统及数据库收录[J]. 信号处理 2020(08)

    标签:;  ;  ;  ;  ;  

    生物医学领域检索系统查询扩展技术研究
    下载Doc文档

    猜你喜欢