论文摘要
随着传感器技术和网络计算的发展,数据流作为一种广泛存在的数据,在网络监控、环境监测、工业控制及财经分析得到广泛应用,这些应用具有如下共同特点:要求实时或近实时连续分析这些数据,数据量特别大并且以流的形式高速到达。传统“先存储然后处理”的数据挖掘模型难于处理这种高速率、瞬息即逝的数据流,挖掘数据流对数据挖掘提出了全新挑战。数据流数据中隐含多种模式,如何快速有效发现这些模式,是很多实际应用的核心问题。近年来,数据流模式发现已经成为数据挖掘领域最具挑战性研究课题之一。本文旨在通过引入鲁棒机制及增量遗忘机制提高模式发现算法性能,并将这些算法用于分析工业生产过程,提高产品质量。取得的主要研究成果包括:1)提出一种基于系统辨识领域中的增量递推最小二乘回归参数估计方法与广义似然比检验方法有机结合的数据流实时趋势提取算法。该算法对不断到达的数据流元素,采用增量方法确定线性回归模型参数,利用广义似然比检验判断分段边界点,自动分段给出数据流趋势。与现有趋势提取算法相比,该算法不但计算速度快且精度高;2)提出一种基于数据驱动的数据流在线模式变化鲁棒检测算法。该算法首先以给定长度的两相邻时间窗口对数据流取样,然后以支持向量数据描述方法将这两相邻时间窗口取样的数据流子集映射到规范化的高维特征空间,并分别建立描述这两相邻时间窗口取样数据流子集映像的最小超球模型(排除了其中的离群点),最后通过计算两超球之间的球心矢量的夹角的余弦,度量该两相邻时间窗口取样数据流子集的相似性检测模式变化。该算法不需要先验知识,不受离群点影响,具有较强鲁棒性;3)提出一种基于偏向最近动态最小二乘支持向量回归(RBDLS-SVR)的离群点检测算法。该算法由于采用了基于RBDLS-SVR方法建模,将SVM的学习问题转化为解线性方程组问题,并采用了增量遗忘机制高精度跟踪数据流动态。因此避免了采用一般SVR建模方法应用于数据流回归建模时,每增加或减少一个样本就需要完全重新进行一次求解计算的缺陷,不但计算速度快而且精度高,能有效检测数据流中的离群点;4)提出一种基于倾斜时间窗口的数据流偏向最近聚类算法。该算法首先通过将滑动窗口中数据等长分割形成不重叠的数据块——基本窗口,然后对每一基本窗口以Haar小波变换提取窗口数据的特征,通过改变所雀骰敬翱谛〔ū浠幌凳鍪锏奖A艚隙嘧罱菹附谔卣鞯哪康?即对于越近的基本窗口保留越多的小波系数而越旧的基本窗口保留越少的小波系数,最后通过定义数据流偏向最近距离,完成基于倾斜时间窗口的偏向最近聚类算法。该算法计算速度快,能高效地实现数据流偏向最近聚类分析;5)阐述了数据流模式发现在实际生产过程中的应用。针对复杂的钢铁生产过程数据,应用本文提出的数据流模式发现算法完成两个挖掘任务:离群点检测及突变发现。理论与实践表明,本文提出的算法在大规模工业生产过程数据分析方面有广阔前景。总之,本文主要研究了高性能数据流模式发现算法及其在工业生产过程的应用,这些算法是对现有数据流模式发现的有益补充或改进。理论和实验都表明,与现有算法相比,本文提出的算法在性能(处理速度、处理精度及鲁棒性)方面有明显优势。