面向自治数据库的统计信息管理技术研究

面向自治数据库的统计信息管理技术研究

论文摘要

信息和互联网技术的迅猛发展导致数据库系统的复杂性和管理成本日益增加。为此,众多研究者提出了自治数据库概念,以实现数据库系统自我管理为目标,主要包括自动化索引/物化视图/表分区推荐和统计信息推荐与维护等。其中统计信息具有强时效性,对数据变化敏感,又是优化器选择最优查询计划的关键性因素,其精确与否将直接影响到查询处理效率,因此尤其需要自动化管理。 现有自动化统计信息管理技术主要采用后台线程定期对数据扫描或采样的方式,对查询处理影响较大,只能离线或在系统负荷低时进行。这会导致统计信息更新不及时。而少数基于查询反馈的技术又因其收集的反馈信息有限和维护方式的局限性,对查询负荷变化不敏感,且在数据扭曲度偏高时会带来很大的估计误差。为此本文提出自适应统计信息管理框架SASM(Self-Adaptive Statistics Management),通过自学习的方式,使用查询反馈信息实现统计信息的自动推荐、收集和维护,不仅维护的统计信息精确性高,而且对查询处理影响小。 对于已有统计信息管理技术中收集统计信息有限、收集代价高等问题,本文提出基于查询计划特性的统计信息收集,在查询执行过程中,充分利用索引扫描、排序等操作的固有属性来收集相关属性上的数据分布等统计信息,不仅能收集到比单纯查询反馈更详细的统计信息,还提高了统计信息收集的效率。 针对已有基于查询反馈的统计信息自动维护技术中后续调整会破坏已有调整结果、数据扭曲度高时误差较大等不足,本文提出自学习柱状图(Self-Learning Histograms,简称SLH)维护策略,使统计信息能从查询反馈中获知自身错误并通过改正错误不断提高自身精度。SLH通过对查询反馈简单编码来记录历史的查询反馈处理过程,在使用新的查询反馈自我求精时,能感知已有求精结果,并避免重新调整已有结果。当统计信息可用空间不足时,SLH通过空间重整在尽可能不降低自身精度的同时释放部分空间,并通过全局重整策略将空间向对当前查询负荷最有益的方向分配来实现统计信息推荐,克服了已有技术中对查询负荷变化不敏感,不能有效利用空间的不足。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 引言
  • 1.2 统计信息与查询处理
  • 1.3 传统管理方式的弊端
  • 1.4 研究内容
  • 1.5 研究历史
  • 1.6 技术分类
  • 1.7 实现现状
  • 1.7.1 Oracle
  • 1.7.2 DB2 UDB
  • 1.7.3 SQL Server
  • 1.8 论文组织结构
  • 1.9 本章小结
  • 第2章 SASM——自适应统计信息管理
  • 2.1 引言
  • 2.2 SASM设计目标
  • 2.3 SASM体系结构和工作流程
  • 2.4 关键技术
  • 2.5 评价
  • 2.6 本章小结
  • 第3章 基于查询计划特性的统计信息收集
  • 3.1 引言
  • 3.2 要收集的统计信息
  • 3.3 基本数据表上的查询计划类型及其特性
  • 3.4 基于查询计划特性收集全局性统计信息
  • 3.4.1 顺序扫描
  • 3.4.2 索引扫描
  • 3.4.3 排序
  • 3.5 基于查询计划特性收集数据分布信息
  • 3.5.1 获取统计信息收集要求
  • 3.5.2 收集统计信息
  • 3.6 本章小结
  • 第4章 自学习柱状图
  • 4.1 引言
  • 4.2 相关工作
  • 4.2.1 静态柱状图
  • 4.2.2 动态柱状图
  • 4.3 Self-Tuning柱状图分析
  • 4.4 定义和术语
  • 4.5 维护自学习柱状图
  • 4.5.1 初始自学习柱状图
  • 4.5.2 维护过程
  • 4.6 规则的推导
  • 4.7 规则的时效性
  • 4.8 柱状图重整
  • 4.8.1 单个柱状图重整
  • 4.8.2 全局范围内重整
  • 4.9 本章小结
  • 第5章 基于规则的代价估计策略
  • 5.1 引言
  • 5.2 直观的估计
  • 5.2.1 范围查询
  • 5.2.2 等值查询
  • 5.3 基于最相近规则的估计
  • 5.3.1 相离
  • 5.3.2 相交
  • 5.3.3 重合
  • 5.3.4 包含
  • 5.3.5 被包含
  • 5.4 基于所有基本规则的估计
  • 5.5 本章小节
  • 第6章 实验
  • 6.1 引言
  • 6.2 对比目标选择
  • 6.3 误差衡量标准
  • 6.4 数据生成
  • 6.5 查询负荷生成
  • 6.6 实验平台
  • 6.7 单个柱状图内重整实验
  • 6.7.1 实验设置
  • 6.7.2 实验结果
  • 6.8 整个柱状图集合内重整实验
  • 6.8.1 实验设置
  • 6.8.2 实验结果
  • 6.9 本章小结
  • 第7章 总结和展望
  • 7.1 引言
  • 7.2 本文贡献
  • 7.3 未来工作展望
  • 参考文献
  • 攻读博士学位期间的研究成果
  • 致谢
  • 相关论文文献

    • [1].基于统计分析的分享型数据库需求无约束估计模型[J]. 淮阴工学院学报 2019(05)
    • [2].基于数据库的网络课题开发策略[J]. 通讯世界 2019(12)
    • [3].基于陕西省地质调查数据库融合理论方法[J]. 陕西地质 2019(02)
    • [4].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2019(05)
    • [5].面向异地双活系统的数据库改造方法[J]. 微型电脑应用 2020(01)
    • [6].危险化学品数据库的发展现状与展望[J]. 合成材料老化与应用 2020(01)
    • [7].舰船电磁环境数据库的设计与实现[J]. 装备环境工程 2020(03)
    • [8].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2019(06)
    • [9].欧洲职业培训发展中心启动新职业教育和培训数据库[J]. 世界教育信息 2020(02)
    • [10].大数据思维下数据库教育模式改革探索[J]. 计算机产品与流通 2020(03)
    • [11].数据库的安全重要性以及带来的风险[J]. 计算机产品与流通 2020(04)
    • [12].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(01)
    • [13].政治学跨国比较研究中的数据库及其运用[J]. 信息系统工程 2020(04)
    • [14].关于中国数据库调查方法与资本化核算方法研究[J]. 统计研究 2020(05)
    • [15].实现灾备数据库同步[J]. 网络安全和信息化 2020(01)
    • [16].基于全局目录的集中型数据库分布式加锁仿真[J]. 计算机仿真 2020(04)
    • [17].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(02)
    • [18].医院围术期麻醉专科数据库的建设与思考[J]. 中国卫生信息管理杂志 2020(03)
    • [19].基于分布式的数据库分库与分表策略研究[J]. 电脑知识与技术 2020(14)
    • [20].主报警数据库在报警管理的应用探讨[J]. 当代化工研究 2020(15)
    • [21].最新版《中国评价核数据库》发布[J]. 中国核电 2020(03)
    • [22].数据库的知识产权保护范式研究[J]. 政法学刊 2020(04)
    • [23].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(03)
    • [24].海洋细菌基质辅助激光解吸电离飞行时间质谱鉴定数据库的建立[J]. 解放军医学院学报 2020(07)
    • [25].大数据时代临床数据库在肿瘤研究中的应用[J]. 传染病信息 2020(04)
    • [26].数据库在计算软件开发中的管理分析[J]. 电脑编程技巧与维护 2020(08)
    • [27].基于语义标注的数据库元数据质量评估方法[J]. 计算机产品与流通 2020(11)
    • [28].基于数据库视角下解读大数据的研究进展与趋势[J]. 计算机产品与流通 2020(11)
    • [29].《感染、炎症、修复》杂志检索数据库[J]. 感染、炎症、修复 2018(03)
    • [30].《感染、炎症、修复》杂志检索数据库[J]. 感染、炎症、修复 2018(04)

    标签:;  ;  ;  ;  

    面向自治数据库的统计信息管理技术研究
    下载Doc文档

    猜你喜欢