面向高速网络的数据流处理系统研究与应用

面向高速网络的数据流处理系统研究与应用

论文摘要

传统的数据库管理系统适合于处理针对有限存储的数据集的一次性查询。然而,像网络监控、金融分析、制造业和传感器网络等现代的应用却需要针对连续而且无限的数据流进行持续查询。在这些应用中,数据不再以有限存储的数据集的形式存在,而是以多重、持续、快速、时变形式到达的数据流。在处理这些需要实时响应的大容量数据流时,传统数据处理基本结构的局限性更加突出。使用传统的数据库管理系统,简单地将到达的数据装入数据库中再进行操作是不可行的,因为它不能直接支持数据流处理中典型的持续查询,更重要的是,近似问题和适应性是数据流处理的两个关键因素,而传统的数据库管理系统关注的却是使用稳定的查询计划获得精确的结果。因此,现有的数据库管理系统多数只能用于为面向数据流的应用提供离线存储支持。本文应用闭环控制理论和一定的运算符调度算法,主要关注如何建立一种既适合高速网络数据流传输特性,又适合网络波动环境的适应性数据流持续查询处理的原型系统。首先,较为详细地分析了网络数据流的传输特性;在此基础上提出数据流查询处理模型设计的特殊的功能需求,指出传统数据库管理系统在处理数据流问题上的局限性;进而提出了一个针对数据流持续查询处理的框架模型,该模型以数据流查询处理系统的适应性为重点,应用低延迟分段调度策略,实现在降低内存使用需求的同时,尽量缩小输出延迟,提高数据流处理系统的适应性和查询的精度;在查询语言方面,以通用的结构化查询语言SQL为基础,将数据流持续查询与现有数据库管理系统结合起来,对标准的SQL增加数据流的引用,扩充滑动窗口的语义,更好地为数据流查询服务。在查询模型及语言设计的基础上,提出基于闭环控制理论的原型系统,分析模型在复杂网络环境下的适应性机制,并介绍系统主要模块的实现方法。最后给出了一个网络流量管理方面的应用实例。结论部分总结了本文的研究工作,简要介绍了这一领域未来的几个研究方向。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 课题来源
  • 1.3 国内外研究现状
  • 1.4 本文的主要内容和创新点
  • 1.5 本文的结构
  • 第二章 传统数据库查询处理方式和高速网络数据流特性分析
  • 2.1 传统的数据库管理系统
  • 2.1.1 关系模型
  • 2.1.2 传统数据库管理系统的查询处理模型
  • 2.1.3 数据组织与查询处理
  • 2.1.4 结构化查询语言SQL
  • 2.1.5 查询优化
  • 2.2 数据流
  • 2.3 高速网络数据流的特性
  • 2.4 数据流查询与传统数据库查询的区别
  • 2.4.1 一次性查询和持续查询
  • 2.4.2 特定查询和预定义查询
  • 2.5 数据流处理系统需求分析
  • 2.5.1 系统结构
  • 2.5.2 查询语言
  • 2.5.3 适应性
  • 2.5.4 兼容性
  • 2.5.5 分布式处理
  • 2.5.6 系统安全
  • 2.6 用传统的数据库管理系统处理高速网络数据流
  • 2.6.1 用传统数据库管理系统处理高速网络数据流的模型
  • 2.6.2 传统数据库处理方式与数据流处理需求的比较
  • 2.6.3 传统查询模型在处理数据流时的局限性
  • 2.7 数据流处理模型的建立
  • 2.8 数据流处理的几个关键问题
  • 2.8.1 无限的内存需求和近似的查询应答
  • 2.8.2 滑动窗口
  • 2.8.3 批处理和采样
  • 2.8.4 分块操作
  • 2.8.5 历史数据参照查询
  • 第三章 高速网络数据流的查询处理模型
  • 3.1 查询模型需要解决的问题
  • 3.2 查询计划
  • 3.2.1 一个查询的例子
  • 3.2.2 查询计划的构成
  • 3.2.3 查询计划的执行
  • 3.3 调度策略分析
  • 3.3.1 例子
  • 3.3.2 几种调度策略的比较
  • 3.4 低延迟分段调度策略
  • 3.4.1 进度图
  • 3.4.2 低延迟分段调度策略
  • 3.4.3 单路数据流查询
  • 3.4.4 多路数据流查询
  • 3.4.5 效果分析
  • 3.5 近似问题
  • 第四章 持续查询语言设计
  • 4.1 持续查询语言介绍
  • 4.2 设计目标
  • 4.3 系统定义
  • 4.3.1 数据流
  • 4.3.2 关系
  • 4.3.3 持续查询
  • 4.4 持续查询语言的设计
  • 4.4.1 从关系到关系的运算
  • 4.4.2 从流到关系的运算
  • 4.4.3 从关系到流的运算
  • 4.4.4 语法的简化和默认
  • 4.4.5 查询的例子
  • 4.4.6 查询的重写
  • 4.5 持续查询语言的改进
  • 第五章 基于控制的系统总体设计与原型实现
  • 5.1 系统模型
  • 5.2 适应性机制
  • 5.3 用控制理论来调整负载平衡
  • 5.4 输入输出
  • 5.5 查询执行单元
  • 5.6 内存管理
  • 5.7 调度程序
  • 第六章 数据流处理系统的应用
  • 6.1 系统概述
  • 6.2 实验环境
  • 6.3 数据流定义
  • 6.4 查询
  • 6.4.1 Top-k 流量查询(Top-k Traffic Query)
  • 6.4.2 用户监控查询(Customer Monitoring Query)
  • 6.4.3 协议分析查询(Protocol Analysis Query)
  • 6.4.4 源监控查询(Source Monitoring Query)
  • 6.4.5 不正常的主机查询(Misbehaving Host Query)
  • 6.4.6 信息流查询(Flow Information Query)
  • 6.5 实验结果
  • 6.5.1 内存占用
  • 6.5.1 输出延迟
  • 结论
  • 1.本文工作总结
  • 2.需要进一步研究的问题
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    面向高速网络的数据流处理系统研究与应用
    下载Doc文档

    猜你喜欢