基于web的XML中文检索模型的研究与实现

基于web的XML中文检索模型的研究与实现

论文摘要

XML是网络上数据表示和交换的主要标准,提高检索效率和准确度是XML信息检索面临的主要问题。XML信息检索系统与传统的信息检索系统不同,主要体现在三个方面,首先检索的对象不同,XML检索的对象是XML元素,而不是传统信息检索的文档;其次,XML检索的索引不仅需要建立内容索引,还需要建立结构信息索引;最后,由于检索的对象不同,所以XML检索的结果相关度计算算法也比较复杂,不仅需要按照传统的信息检索理论考虑关键字之间的距离,还需要考虑XML文档树的结构。 为满足结构复杂,大规模的XML信息检索的需要,本文深入研究了XML信息检索的已有理论及原型系统。主要研究了XML信息检索系统的XML索引结构和索引检索算法,以及检索结果的相关度计算方法三个方面的内容,提出并实现了一种基于关键字查询的XML中文检索模型。本文包括4个方面的内容:第一,分析了已有的XML数据索引结构中存在的问题,提出了一种高效的基于倒排表的“文档-关键字-节点”两级索引结构,该结构在不显著增加索引的空间占用的情况下包含了更加丰富的XML文档的结构和内容信息,缩小了索引检索时文档搜索的范围,提高了检索的效率;第二,在提出的基于倒排表的“文档-关键字-节点”两级索引结构的基础上,提出了一种高效的索引检索算法,该算法与索引结构相结合,通过优化索引结构的搜索顺序,有效的提高了基于关键字的XML信息检索的检索效率;第三,本文提出了一种基于TF-IDF的查询结果相关度计算算法,该算法基于已有的信息检索理论中结果相关度计算算法,既考虑了XML数据中关键字出现的位置,又考虑了XML文档的树型结构对查询结果相关度的影响,从而提高了检索的效率;第四,设计并实现了一个XML中文信息检索系统的核心功能原型系统—XSK(XML Search based on Keywords)。XSK系统是一个中文XML信息检索系统,集成了本文提出的“文档-关键字-节点”两级XML索引结构,基于此索引结构的索引查询算法和结果相关度计算算法,实验证明此系统可以比较准确高效的完成XML数据的检索。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景
  • 1.2 国内外研究发展情况
  • 1.2.1 XML的提出
  • 1.2.2 XML信息检索的研究情况
  • 1.2.3 XML信息检索与文本信息检索
  • 1.2.4 本文研究内容及组织结构
  • 1.3 本章小结
  • 2 相关研究
  • 2.1 XML数据模型
  • 2.1.1 OEM模型
  • 2.1.2 DOM模型
  • 2.2 XML检索模型的查询模型分析
  • 2.2.1 基于简单关键字的查询方式
  • 2.2.2 基于结构匹配与关键字相结合的查询模型
  • 2.3 查询模型的选择
  • 2.4 本章小结
  • 3 XML信息检索中的索引技术
  • 3.1 XML索引结构
  • 3.1.1 基于路径的索引
  • 3.1.2 基于倒排表的索引
  • 3.1.3 基于序列的索引
  • 3.1.4 基于联接的索引
  • 3.2 XML检索模型的选择
  • 3.3 本章小结
  • 4 一种基于关键字查询的XML检索模型
  • 4.1 引言
  • 4.2 数学模型
  • 4.3 系统架构
  • 4.4 索引模型
  • 4.4.1 节点的编码
  • 4.4.2 文档-关键字-节点倒排表
  • 4.4.3 关键字-文档倒排表
  • 4.4.4 索引检索算法
  • 4.4.5 相关度计算算法
  • 4.4.6 索引的更新
  • 4.5 实验
  • 4.6 本章小结
  • 5 XSK系统设计与实现
  • 5.1 XSK系统的体系结构
  • 5.2 系统的功能结构
  • 5.3 XML的解析处理
  • 5.3.1 解析器的选择
  • 5.3.2 中文切词处理
  • 5.4 索引的存储及更新
  • 5.4.1 节点的编码
  • 5.4.2 索引存储设计
  • 5.4.3 索引更新设计
  • 5.5 XSK系统核心算法
  • 5.5.1 索引检索算法
  • 5.5.2 节点合并算法
  • 5.5.3 相关度计算算法
  • 5.6 实验结果
  • 5.6.1 实验环境和实验数据
  • 5.6.2 评价标准
  • 5.6.3 实验结果及分析
  • 5.7 本章小结
  • 6 结束语
  • 参考文献
  • 致谢
  • 攻读学位期间已经发表的学术论文
  • 学位论文评阅及答辩情况裹
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于web的XML中文检索模型的研究与实现
    下载Doc文档

    猜你喜欢