XML簇聚存储及路径选择性代价估计研究

XML簇聚存储及路径选择性代价估计研究

论文摘要

随着互连网的快速发展,出现了大量的Web数据,这些Web数据多以XML文档形式出现,如何有效存储XML文档和从大量XML文档中检索有用信息,已成为数据库研究领域的一个重要研究课题。本文的研究工作主要围绕XML数据存储和查询优化展开,重点研究XML簇聚存储模型和路径选择性代价估计。首先对XML技术做了综述,分析了XML的研究现状和技术上的突破,然后重点从XML簇聚存储和查询优化两个方面做了深入的研究工作。在XML簇聚存储方面,针对DOM(文档对象模型)不能有效减少XML查询的磁盘I/O问题,提出了X-cluster簇聚存储模型,此模型根据结点划分思想将XML文档中结点结构与结点值最为“相似”的一组结点簇聚在一起,并为不同的结点值类型引入了不同的存储模型和压缩方法,解决了以往簇聚模型中人为地割裂结点结构与结点值之间的关系,簇聚误差过大的问题;在XML查询优化方面,深入研究了XML路径选择性代价估计,详细分析了基于直方图的路径选择性代价估计(HPM)方法,针对HPM方法计算效率低,选择性估计精度不高的缺点,将X-cluster簇聚大纲统计信息模型引入路径选择性代价估计中,提出了CHPM方法。该方法通过计算选择率为百分之百的结点或路径跳过不必参与直方图运算的结点或路径,减少了代价树的规模,从而提高路径选择性代价估计的效率;同时为了避免中间结果直方图某些格中的高频数据对后续直方图运算精度的影响,给出了直方图的压缩策略,通过压缩使直方图中的数据近似满足均匀分布,从而降低路径选择性估计的误差。实验表明,X-cluster簇聚大纲及基于此大纲和压缩直方图技术的XML含值谓词路径选择性代价估计方法无论是针对单谓词简单路径选择性代价估计还是多谓词复杂路径选择性代价估计,代价估计的相对误差都较低,是一种可行而有效的方法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.1.1 课题研究背景
  • 1.1.2 XML面临的挑战
  • 1.1.3 课题研究意义
  • 1.2 目前国内外的研究现状
  • 1.3 论文的主要工作
  • 1.4 论文的组织
  • 第二章 Native XML数据库相关技术研究综述
  • 2.1 XML相关概念
  • 2.1.1 XML文档
  • 2.1.2 XML数据模型
  • 2.1.3 DTD与XMLSchema
  • 2.2 XML数据库技术
  • 2.2.1 XML数据库定义
  • 2.2.2 XML数据库分类
  • 2.3 XML数据库查询语言
  • 2.3.1 XPath查询语言
  • 2.3.2 xQuery查询语言
  • 2.4 XML簇聚存储技术
  • 2.4.1 存储粒度
  • 2.4.2 基于模式簇聚的存储策略
  • 2.5 XML查询优化技术
  • 2.5.1 逻辑优化
  • 2.5.2 物理优化
  • 2.6 本章小结
  • 第三章 构建X-cluster簇聚大纲模型
  • 3.1 引言
  • 3.2 X-cluster簇聚大纲数据模型
  • 3.3 X-cluster簇聚大纲结点合并与误差度量
  • 3.3.1 X-cluster结点合并
  • 3.3.2 X-cluster误差度量
  • 3.4 X-cluster簇聚大纲结点值压缩
  • 3.5 X-cluster簇聚大纲构造算法
  • 3.5.1 X-cluster构造算法及算法分析
  • 3.6 本章小结
  • 第四章 基于X-cluster簇聚大纲指导的路径选择性代价估计
  • 4.1 引言
  • 4.2 Extent(u)的直方图表示
  • 4.3 基于直方图的路径选择性代价估计
  • 4.3.1 值-位置直方图
  • 4.3.2 基于直方图的路径选择性代价估计(HPM)
  • 4.4 X-cluster簇聚大纲指导的路径选择性代价估计
  • 4.4.1 X-cluster簇聚大纲统计信息模型
  • 4.4.2 简单路径选择率计算
  • 4.4.3 复杂路径选择率计算
  • 4.4.4 基于压缩直方图的路径选择性代价估计(CHPM)
  • 4.5 实验性能测试
  • 4.5.1 选择率误差实验分析
  • 4.5.2 单谓词简单路径选择性精度实验分析
  • 4.5.3 多谓词复杂路径选择性精度实验分析
  • 4.6 本章小结
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间主要的研究成果
  • 相关论文文献

    • [1].基于XML的异构数据库信息交互机制的实现[J]. 物联网技术 2019(12)
    • [2].新闻评论类公众号XML内容分发的发展策略研究——基于十家新闻评论微信公众号的实证考察[J]. 出版广角 2020(10)
    • [3].基于FLASH与XML的在线考试系统的设计与实现[J]. 软件导刊(教育技术) 2016(12)
    • [4].密码协议XML描述方法研究[J]. 信息工程大学学报 2016(06)
    • [5].XML在信息系统中的应用[J]. 电脑编程技巧与维护 2017(04)
    • [6].基于XML的数据中心网络统一配置方法[J]. 自动化与仪器仪表 2017(02)
    • [7].基于伪反馈的有效XML查询扩展[J]. 计算机科学与探索 2016(12)
    • [8].基于XML的电子病历隐私数据脱敏技术的研究与设计[J]. 信息技术与信息化 2017(03)
    • [9].基于XML的电子书自排版系统的实现[J]. 出版科学 2017(04)
    • [10].基于XML配置管理的数字多用表检定软件设计与实现[J]. 中国管理信息化 2017(08)
    • [11].基于XML地图符号表达的研究[J]. 测绘标准化 2016(02)
    • [12].XML技术在社区医疗服务系统中的应用与研究[J]. 数字技术与应用 2016(08)
    • [13].基于XML的工作流引擎的设计与实现[J]. 科技风 2014(17)
    • [14].关系模式到XML模式映射模型的建立与实现[J]. 电子制作 2014(20)
    • [15].基于推理树的XML推理控制研究[J]. 通信技术 2015(02)
    • [16].基于XML的工作流模型挖掘[J]. 计算机光盘软件与应用 2014(21)
    • [17].基于XML路径表达式优化及其查询和过滤计算方法研究[J]. 信阳师范学院学报(自然科学版) 2015(04)
    • [18].基于XML的公交查询系统设计[J]. 科教文汇(下旬刊) 2012(07)
    • [19].XML技术的房地产估价数据标准研究[J]. 中国房地产 2013(24)
    • [20].《XML技术》线上教学的实践和探索[J]. 科技风 2020(33)
    • [21].探究XML在影视后期剪辑中的应用[J]. 中国传媒科技 2020(02)
    • [22].基于模型检查的XML树模式优化动作生成[J]. 计算机应用与软件 2017(03)
    • [23].XML与关系数据库之间的转换[J]. 教育教学论坛 2017(18)
    • [24].XML中基于聚类的相似度改进算法[J]. 计算机与数字工程 2015(12)
    • [25].以目标节点为导向的XML关键词查询和排序[J]. 计算机应用与软件 2016(04)
    • [26].一种基于XML的工作流引擎设计和实现[J]. 电脑编程技巧与维护 2016(16)
    • [27].建设基于XML技术电子病历系统的核心价值[J]. 中国数字医学 2009(02)
    • [28].基于XML的结构化电子病历临床诊疗数据库构建[J]. 中国数字医学 2012(05)
    • [29].基于XML的名老中医医案结构化标引系统[J]. 中国数字医学 2013(07)
    • [30].基于XML-关系映射数据访问层的设计与实现[J]. 安徽广播电视大学学报 2015(02)

    标签:;  ;  ;  ;  ;  

    XML簇聚存储及路径选择性代价估计研究
    下载Doc文档

    猜你喜欢