基于web的XML中文检索模型的研究与实现

论文摘要

XML是网络上数据表示和交换的主要标准，提高检索效率和准确度是XML信息检索面临的主要问题。XML信息检索系统与传统的信息检索系统不同，主要体现在三个方面，首先检索的对象不同，XML检索的对象是XML元素，而不是传统信息检索的文档；其次，XML检索的索引不仅需要建立内容索引，还需要建立结构信息索引；最后，由于检索的对象不同，所以XML检索的结果相关度计算算法也比较复杂，不仅需要按照传统的信息检索理论考虑关键字之间的距离，还需要考虑XML文档树的结构。为满足结构复杂，大规模的XML信息检索的需要，本文深入研究了XML信息检索的已有理论及原型系统。主要研究了XML信息检索系统的XML索引结构和索引检索算法，以及检索结果的相关度计算方法三个方面的内容，提出并实现了一种基于关键字查询的XML中文检索模型。本文包括4个方面的内容：第一，分析了已有的XML数据索引结构中存在的问题，提出了一种高效的基于倒排表的“文档-关键字-节点”两级索引结构，该结构在不显著增加索引的空间占用的情况下包含了更加丰富的XML文档的结构和内容信息，缩小了索引检索时文档搜索的范围，提高了检索的效率；第二，在提出的基于倒排表的“文档-关键字-节点”两级索引结构的基础上，提出了一种高效的索引检索算法，该算法与索引结构相结合，通过优化索引结构的搜索顺序，有效的提高了基于关键字的XML信息检索的检索效率；第三，本文提出了一种基于TF-IDF的查询结果相关度计算算法，该算法基于已有的信息检索理论中结果相关度计算算法，既考虑了XML数据中关键字出现的位置，又考虑了XML文档的树型结构对查询结果相关度的影响，从而提高了检索的效率；第四，设计并实现了一个XML中文信息检索系统的核心功能原型系统—XSK（XML Search based on Keywords）。XSK系统是一个中文XML信息检索系统，集成了本文提出的“文档-关键字-节点”两级XML索引结构，基于此索引结构的索引查询算法和结果相关度计算算法，实验证明此系统可以比较准确高效的完成XML数据的检索。

论文目录

摘要

ABSTRACT

1 绪论

1.1 研究背景

1.2 国内外研究发展情况

1.2.1 XML的提出

1.2.2 XML信息检索的研究情况

1.2.3 XML信息检索与文本信息检索

1.2.4 本文研究内容及组织结构

1.3 本章小结

2 相关研究

2.1 XML数据模型

2.1.1 OEM模型

2.1.2 DOM模型

2.2 XML检索模型的查询模型分析

2.2.1 基于简单关键字的查询方式

2.2.2 基于结构匹配与关键字相结合的查询模型

2.3 查询模型的选择

2.4 本章小结

3 XML信息检索中的索引技术

3.1 XML索引结构

3.1.1 基于路径的索引

3.1.2 基于倒排表的索引

3.1.3 基于序列的索引

3.1.4 基于联接的索引

3.2 XML检索模型的选择

3.3 本章小结

4 一种基于关键字查询的XML检索模型

4.1 引言

4.2 数学模型

4.3 系统架构

4.4 索引模型

4.4.1 节点的编码

4.4.2 文档-关键字-节点倒排表

4.4.3 关键字-文档倒排表

4.4.4 索引检索算法

4.4.5 相关度计算算法

4.4.6 索引的更新

4.5 实验

4.6 本章小结

5 XSK系统设计与实现

5.1 XSK系统的体系结构

5.2 系统的功能结构

5.3 XML的解析处理

5.3.1 解析器的选择

5.3.2 中文切词处理

5.4 索引的存储及更新

5.4.1 节点的编码

5.4.2 索引存储设计

5.4.3 索引更新设计

5.5 XSK系统核心算法

5.5.1 索引检索算法

5.5.2 节点合并算法

5.5.3 相关度计算算法

5.6 实验结果

5.6.1 实验环境和实验数据

5.6.2 评价标准

5.6.3 实验结果及分析

5.7 本章小结

6 结束语

参考文献

致谢

攻读学位期间已经发表的学术论文

学位论文评阅及答辩情况裹

基于web的XML中文检索模型的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢