论文摘要
XML是网络上数据表示和交换的主要标准,提高检索效率和准确度是XML信息检索面临的主要问题。XML信息检索系统与传统的信息检索系统不同,主要体现在三个方面,首先检索的对象不同,XML检索的对象是XML元素,而不是传统信息检索的文档;其次,XML检索的索引不仅需要建立内容索引,还需要建立结构信息索引;最后,由于检索的对象不同,所以XML检索的结果相关度计算算法也比较复杂,不仅需要按照传统的信息检索理论考虑关键字之间的距离,还需要考虑XML文档树的结构。 为满足结构复杂,大规模的XML信息检索的需要,本文深入研究了XML信息检索的已有理论及原型系统。主要研究了XML信息检索系统的XML索引结构和索引检索算法,以及检索结果的相关度计算方法三个方面的内容,提出并实现了一种基于关键字查询的XML中文检索模型。本文包括4个方面的内容:第一,分析了已有的XML数据索引结构中存在的问题,提出了一种高效的基于倒排表的“文档-关键字-节点”两级索引结构,该结构在不显著增加索引的空间占用的情况下包含了更加丰富的XML文档的结构和内容信息,缩小了索引检索时文档搜索的范围,提高了检索的效率;第二,在提出的基于倒排表的“文档-关键字-节点”两级索引结构的基础上,提出了一种高效的索引检索算法,该算法与索引结构相结合,通过优化索引结构的搜索顺序,有效的提高了基于关键字的XML信息检索的检索效率;第三,本文提出了一种基于TF-IDF的查询结果相关度计算算法,该算法基于已有的信息检索理论中结果相关度计算算法,既考虑了XML数据中关键字出现的位置,又考虑了XML文档的树型结构对查询结果相关度的影响,从而提高了检索的效率;第四,设计并实现了一个XML中文信息检索系统的核心功能原型系统—XSK(XML Search based on Keywords)。XSK系统是一个中文XML信息检索系统,集成了本文提出的“文档-关键字-节点”两级XML索引结构,基于此索引结构的索引查询算法和结果相关度计算算法,实验证明此系统可以比较准确高效的完成XML数据的检索。