XML数据查询中值匹配查询代价估计

XML数据查询中值匹配查询代价估计

论文摘要

近年来,XML(Extensible Markup Language)己经成为互联网上数据发布和数据交换的事实标准并受到越来越多的关注。虽然XML查询技术己经取得一些研究成果,但由于XML文档自身的特点,XML查询技术在理论上和实现上都还存在很多难点。本文对XML查询技术进行深入研究,对XML数据查询算法研究现状、发展以及应用进行了分析和总结。特别是分析了XML查询优化技术的XML统计数据模型、XML数据在数据库中的存储、XML数据的解析和查询处理的方法。目前已经提出了多种XML数据查询的方法,但是对于复杂的XML数据分布还考虑不周全,使得操作效率很低。本文分别从一维选择估计和多维选择估计两个方面详细阐述了选择估计技术,结合实际中XML的特点,提出了用多维直方图统计XML数据,并取得了简化操作的结果。XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,会形成高维元素,导致存储量和错误率大幅上升,因此本文提出了用离散余弦转换方法(DCT)处理XML数据统计,并根据XML数据的高相关性,扩展了DCT到高维,得到了高维DCT方程。使得查询统计的错误率大大减小,并且在时间和空间上都有很大的节省。对一种方法的提出,要考虑详细周全的实验验证,在试验中所有的数据都被生成在(0,l)n正态分布中,合成的数据大小为50k,维数范围从2到10维,从一般分布、Zipf分布和集簇分布,三个数据分布分别来验证(1)存储需求和选择性估计时间;(2)维数和查询大小的影响;(3)数据分布影响。实验结果:1)以前的方法不能支持多维选择性估计,特别是三维以上时候错误率很大。本文提出的方法支持高维选择性估计精度高。2)提出的方法节省时间和空间。3)提出的方法消除了估算的选择的周期性重建统计的消耗,因为它可以反映动态数据更新并且立即统计。4)提出的方法使用了余弦计算,使得问题简单化,计算快速,并且因为离散余弦变换支持相邻的桶之间的篡改,使得能够快速准确的估计计算。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 XML 的提出
  • 1.1.2 XML 数据的特征
  • 1.2 本领域发展概况
  • 1.2.1 直方图对XML 统计的研究
  • 1.2.2 查询代价估计问题
  • 1.3 本文研究内容
  • 第二章 多维直方图处理XML 数据
  • 2.1 XML 数据模型
  • 2.1.1 OEM 模型
  • 2.1.2 DOM 模型
  • 2.2 XML 查询语言
  • 2.2.1 XPath
  • 2.2.2 XQuery
  • 2.3 XML 文档在数据库中的存储
  • 2.3.1 当前数据库的 XML 文档存储方式
  • 2.3.2 混合型XML 存储结构
  • 2.4 XML 解析器
  • 2.5 多维直方图处理XML 数据的提出
  • 2.6 多维直方图及直方图压缩
  • 2.6.1 多维直方图
  • 2.6.2 压缩直方图
  • 2.7 本章小结
  • 第三章 DCT 方法处理高维直方图
  • 3.1 一维选择估计
  • 3.2 多维选择估计
  • 3.3 离散余弦变换方法及其高维扩展
  • 3.3.1 离散余弦变换(DCT)的定义
  • 3.3.2 DCT 的扩展
  • 3.4 本章小结
  • 第四章 DCT 处理直方图实验
  • 4.1 选择性估计的范围查询以及维数和查询范围的影响
  • 4.1.1 选择性估计的范围查询
  • 4.1.2 维数和查询大小的影响
  • 4.2 存储需求和选择性估计时间
  • 4.3 数据分布及其影响
  • 4.3.1 数据分布
  • 4.3.2 数据分布影响
  • 4.4 动态数据更新
  • 4.5 实验总结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 未来的方向
  • 参考文献
  • 致谢
  • 研究生期间发表的论文
  • 相关论文文献

    • [1].可信动态度量下学习行为数据分布式挖掘算法[J]. 黑龙江工业学院学报(综合版) 2019(11)
    • [2].并行数据库数据分布策略研究[J]. 计算机光盘软件与应用 2012(21)
    • [3].云计算环境下大数据分布规律的结构优化设计[J]. 信息与电脑(理论版) 2020(08)
    • [4].云计算环境下大数据分布规律的结构优化设计[J]. 电子技术与软件工程 2017(09)
    • [5].云计算环境下数据分布式强制安全访问方法研究[J]. 科技通报 2017(08)
    • [6].云计算环境下大数据分布规律的结构优化设计[J]. 现代电子技术 2016(08)
    • [7].数据分布不敏感的决策树算法[J]. 吉林大学学报(工学版) 2009(06)
    • [8].面向电力大数据分布式云存储的性能研究与优化分析[J]. 电子世界 2015(24)
    • [9].基于数据分布的标签噪声过滤[J]. 清华大学学报(自然科学版) 2019(04)
    • [10].分布式存储中数据分布策略的分析与研究[J]. 河北建筑工程学院学报 2012(03)
    • [11].两组数据分布的一致性分析及其应用[J]. 长春工程学院学报(自然科学版) 2011(03)
    • [12].基于数据分布自适应的迁移学习算法比较研究[J]. 软件导刊 2020(08)
    • [13].基于网格服务的电力海量数据分布式恢复算法[J]. 计算机应用与软件 2016(11)
    • [14].面向电力大数据分布式云存储的性能分析与优化[J]. 电气应用 2015(06)
    • [15].一种面向企业私有云的数据分布策略[J]. 计算机研究与发展 2011(S3)
    • [16].公众数据分布策略探讨[J]. 福建电脑 2010(07)
    • [17].云环境下影响数据分布并行应用执行效率的因素分析[J]. 计算机应用 2017(07)
    • [18].一种基于数据分布特征的模糊规则提取[J]. 辽宁工业大学学报(自然科学版) 2013(02)
    • [19].时基媒体数据分布系统及方法研究[J]. 微计算机应用 2011(12)
    • [20].基于数据分布的小样本扩充方法及应用[J]. 控制工程 2019(07)
    • [21].关联数据分布树在分布式查询中的应用[J]. 计算机工程与设计 2008(15)
    • [22].数据库集群中的数据分布策略研究[J]. 煤炭技术 2013(04)
    • [23].考试数据分布特征量在学风建设中的应用[J]. 考试周刊 2015(52)
    • [24].基于数据分布图视觉传达分析[J]. 卫星电视与宽带多媒体 2020(04)
    • [25].基于X-RDP阵列码的一种数据分布策略[J]. 通信学报 2013(S1)
    • [26].基于主元空间数据分布比较的统计过程监测[J]. 仪器仪表学报 2008(08)
    • [27].基于hadoop的大数据分布式集群平台搭建的研究[J]. 计算机产品与流通 2017(12)
    • [28].无线电通信仿真的数据分布管理[J]. 价值工程 2013(17)
    • [29].面向多维混合型数据分布的混合多维直方图初探[J]. 计算机应用 2009(09)
    • [30].基于HBase的海量数据分布式序列存储策略优化[J]. 自动化技术与应用 2020(08)

    标签:;  ;  

    XML数据查询中值匹配查询代价估计
    下载Doc文档

    猜你喜欢