论文摘要
随着计算机技术和网络技术的迅猛发展,企业和个人通过网络进行数据交换变得越来越频繁。但是由于不同用户的数据采用了不同的数据表示方式,这就给数据的交换带了很大的不便,需要一个为大家普遍接受的数据表示方式来对网络数据的交互格式进行统一。自1998年W3C推出XML1.0规范以来,XML技术有了很大发展,成为网络环境下结构化信息描述和管理的有效工具。XML作为一种数据的表示形式,正在数据库及网络中的数据传输领域被广泛使用,并成为事实上的数据表示标准。目前,有关XML数据存储和索引的研究都是数据库研究领域的重要热点。有鉴于索引技术在数据管理中的突出地位,众多的XML文献也将研究集中到了XML索引的技术。如何捕获XML数据中的结构特征,并高效地支持路径(结构)查询的处理,是其中的核心。对当前分布于众多研究文献中的XML索引进行汇总,可以根据对XML查询基本方式中的两个缺陷的不同处理,将XML索引技术分为两大类:结构摘要类索引和节点记录类索引。本文提出了一种有效地在大规模XML文档数据库上建立索引的技术。本文的XML数据库索引技术,改进了原位立方体索引的构建过程,并在改进后的位立方体基础上,增加了带有序路径名称链表的文档树和关键字索引表两种索引数据结构,将三者有机的结合在一起。形成了一种即适合关键字查询又适用于路径查询(包括对模糊路径的查询)的高效的XML索引技术。在该索引机制下,可以方便快速的完成对拥有大量XML文档的数据库在关键字、全路径、模糊路径及文档等方面的检索。本文所做的主要工作在于:·提出了一种新的XML索引方式,详细描述了该索引方式的数据结构,并提出了该索引方式的构建算法。·讨论了文中提出的XML索引方法的维护问题。并提出了在增加文档和删除文档时文中索引的维护算法。·给出了对采用文中索引结构的XML数据库进行各种查询操作的步骤。包括基于关键字的查询、基于全路径的查询、基于模糊路径的查询和基于文档的查询。·通过数据分析和实例比较证明了文中索引方法无论从索引的构建时间,还是在其上对XML数据库进行各种查询操作,均具有较高的效率。将本文提出的索引方式应用到XML数据库中,能满足用户的多种查询要求,减少用户查询所需时间。文中的索引结构尤其适用于对拥有大量文档的稳定XML数据库频繁查询的情况,文档间元素路径的相似程度越大,效果越好。