论文摘要
传统的数据库管理系统适合于处理针对有限存储的数据集的一次性查询。然而,像网络监控、金融分析、制造业和传感器网络等现代的应用却需要针对连续而且无限的数据流进行持续查询。在这些应用中,数据不再以有限存储的数据集的形式存在,而是以多重、持续、快速、时变形式到达的数据流。在处理这些需要实时响应的大容量数据流时,传统数据处理基本结构的局限性更加突出。使用传统的数据库管理系统,简单地将到达的数据装入数据库中再进行操作是不可行的,因为它不能直接支持数据流处理中典型的持续查询,更重要的是,近似问题和适应性是数据流处理的两个关键因素,而传统的数据库管理系统关注的却是使用稳定的查询计划获得精确的结果。因此,现有的数据库管理系统多数只能用于为面向数据流的应用提供离线存储支持。本文应用闭环控制理论和一定的运算符调度算法,主要关注如何建立一种既适合高速网络数据流传输特性,又适合网络波动环境的适应性数据流持续查询处理的原型系统。首先,较为详细地分析了网络数据流的传输特性;在此基础上提出数据流查询处理模型设计的特殊的功能需求,指出传统数据库管理系统在处理数据流问题上的局限性;进而提出了一个针对数据流持续查询处理的框架模型,该模型以数据流查询处理系统的适应性为重点,应用低延迟分段调度策略,实现在降低内存使用需求的同时,尽量缩小输出延迟,提高数据流处理系统的适应性和查询的精度;在查询语言方面,以通用的结构化查询语言SQL为基础,将数据流持续查询与现有数据库管理系统结合起来,对标准的SQL增加数据流的引用,扩充滑动窗口的语义,更好地为数据流查询服务。在查询模型及语言设计的基础上,提出基于闭环控制理论的原型系统,分析模型在复杂网络环境下的适应性机制,并介绍系统主要模块的实现方法。最后给出了一个网络流量管理方面的应用实例。结论部分总结了本文的研究工作,简要介绍了这一领域未来的几个研究方向。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.2 课题来源1.3 国内外研究现状1.4 本文的主要内容和创新点1.5 本文的结构第二章 传统数据库查询处理方式和高速网络数据流特性分析2.1 传统的数据库管理系统2.1.1 关系模型2.1.2 传统数据库管理系统的查询处理模型2.1.3 数据组织与查询处理2.1.4 结构化查询语言SQL2.1.5 查询优化2.2 数据流2.3 高速网络数据流的特性2.4 数据流查询与传统数据库查询的区别2.4.1 一次性查询和持续查询2.4.2 特定查询和预定义查询2.5 数据流处理系统需求分析2.5.1 系统结构2.5.2 查询语言2.5.3 适应性2.5.4 兼容性2.5.5 分布式处理2.5.6 系统安全2.6 用传统的数据库管理系统处理高速网络数据流2.6.1 用传统数据库管理系统处理高速网络数据流的模型2.6.2 传统数据库处理方式与数据流处理需求的比较2.6.3 传统查询模型在处理数据流时的局限性2.7 数据流处理模型的建立2.8 数据流处理的几个关键问题2.8.1 无限的内存需求和近似的查询应答2.8.2 滑动窗口2.8.3 批处理和采样2.8.4 分块操作2.8.5 历史数据参照查询第三章 高速网络数据流的查询处理模型3.1 查询模型需要解决的问题3.2 查询计划3.2.1 一个查询的例子3.2.2 查询计划的构成3.2.3 查询计划的执行3.3 调度策略分析3.3.1 例子3.3.2 几种调度策略的比较3.4 低延迟分段调度策略3.4.1 进度图3.4.2 低延迟分段调度策略3.4.3 单路数据流查询3.4.4 多路数据流查询3.4.5 效果分析3.5 近似问题第四章 持续查询语言设计4.1 持续查询语言介绍4.2 设计目标4.3 系统定义4.3.1 数据流4.3.2 关系4.3.3 持续查询4.4 持续查询语言的设计4.4.1 从关系到关系的运算4.4.2 从流到关系的运算4.4.3 从关系到流的运算4.4.4 语法的简化和默认4.4.5 查询的例子4.4.6 查询的重写4.5 持续查询语言的改进第五章 基于控制的系统总体设计与原型实现5.1 系统模型5.2 适应性机制5.3 用控制理论来调整负载平衡5.4 输入输出5.5 查询执行单元5.6 内存管理5.7 调度程序第六章 数据流处理系统的应用6.1 系统概述6.2 实验环境6.3 数据流定义6.4 查询6.4.1 Top-k 流量查询(Top-k Traffic Query)6.4.2 用户监控查询(Customer Monitoring Query)6.4.3 协议分析查询(Protocol Analysis Query)6.4.4 源监控查询(Source Monitoring Query)6.4.5 不正常的主机查询(Misbehaving Host Query)6.4.6 信息流查询(Flow Information Query)6.5 实验结果6.5.1 内存占用6.5.1 输出延迟结论1.本文工作总结2.需要进一步研究的问题参考文献致谢
相关论文文献
标签:高速网络论文; 数据流论文; 查询处理论文;