论文摘要
近年来,流数据在网络监控、传感器网络、航空航天、气象测控和金融服务等应用领域广泛出现。这些数据和传统的数据相比,有着不同的特点:数据量大、连续性、实时性。随机存取采用的是单一线性数据扫描,完整地将数据流存储到本地是不可行的,在线分析要求分析的过程非常快,且实时分析的系统资源是有限的。由于具有上述这些特点,处理流数据的算法必须是快速的,且其空间复杂度要低,最终的结果是近似的,但又需具备一定的精度。针对流数据的查询处理,本文做了如下研究:1、提出把线性预测编码技术(Linear Prediction Coding,LPC)的频谱方法与动态时间弯曲(Dynamic Time Warping,DTW)方法结合起来,并将此新方法运用到流数据的相似性搜索。主要解决流数据相似性搜索的两个关键问题:用更少的特征值来获取流数据的关键特征和采用有效的距离度量方式。LPC频谱方法是从数据对象中提取有效特征的方法之一,与离散傅立叶变换(Discrete Fourier Transform,DFT)和离散小波变换(DiscreteWavelet Transform,DWT)方法相比,这种方法用更少的频谱系数来描述流数据的大部分能量和信息,具有较好的数据压缩能力。采用动态时间弯曲距离度量方法克服了欧几里德距离度量方法自身的缺陷。本文把LPC频谱方法与动态时间弯曲方法两者结合起来,提高了相似性查询的精度。2、提出一种新颖的时间序列流的处理和描述方法:即中值省略方法。该方法通过区段聚集近似(Piecewise Aggregate Approximation,PAA)和中值省略二个步骤对时间序列流进行处理,达到数据省略描述的目的。首先按照PAA方法把原时间序列做适当的缩减,转换成PAA序列,然后运用中值省略方法把PAA序列按值域的中位值对时间序列进行简单的处理,通过序列的值与中位值进行比较转换成二进制序列。与没有进行处理过的数据和按均值省略处理的数据相比,本文提出的中值省略方法无论在时间、空间上,还是数据分析的质量上都有明显的提高。当流数据中存在野数据时,中值省略方法体现出更好的性能。3、AR*模型包括AR、ARMA、GRACH,这类模型是预测时间序列的经典模型。近年来研究人员把广义回归神经网络技术(Generalized RegressionNeural Network,GRNN)引入预测领域,并且表明它是替代线性和非线性模型较好的模型。本文把AR*模型与广义回归神经网络技术结合起来,构造一个混合模型AR*-GRNN,充分利用这两个模型在线性和非线性拟合的优点。在AR*-GRNN中,对时间序列建立AR*模型获取了时间序列的统计和易变性等特征信息,克服了单个模型在时间序列流上预测的弱点,改善了原模型的预测性能。实验证明,通过这两类模型的混合构造是一种有效提高预测性能的方法,能达到单个模型无法达到的效果。4、提出一种新的降载框架——基于AR*-GRNN的QoS降载管理框架研究。当大量高速到达的流数据出现时,系统过载情况会经常发生,查询处理必须考虑系统的负载情况,所以如何在资源有限的条件下,获得满意的查询结果是我们所面临的重要问题。本文提出了基于AR*-GRNN的QoS降载管理框架,在这个框架中,使用了LPC技术来有效地提取流数据的特征值,当降载情况发生时,通过AR*-GRNN模型,运用历史的特征值来预测已卸载部分的数据特征值,并运用QoS信息得出最佳的降载计划,从而完成过载环境下的数据分析工作。本文的相关实验证实了此方法的可行性和有效性。本文研究了上述四个问题,提出了新的解决方法,通过一系列的实验将本文提出的方法与前人的研究方法进行分析比较,实验结果表明本文的方法占有优势,这也就说明了本文提出的方法是对现有流数据查询处理方法的有效的改进和补充。