高性能数据流模式发现算法及其应用研究

论文摘要

随着传感器技术和网络计算的发展,数据流作为一种广泛存在的数据,在网络监控、环境监测、工业控制及财经分析得到广泛应用,这些应用具有如下共同特点:要求实时或近实时连续分析这些数据,数据量特别大并且以流的形式高速到达。传统“先存储然后处理”的数据挖掘模型难于处理这种高速率、瞬息即逝的数据流,挖掘数据流对数据挖掘提出了全新挑战。数据流数据中隐含多种模式,如何快速有效发现这些模式,是很多实际应用的核心问题。近年来,数据流模式发现已经成为数据挖掘领域最具挑战性研究课题之一。本文旨在通过引入鲁棒机制及增量遗忘机制提高模式发现算法性能,并将这些算法用于分析工业生产过程,提高产品质量。取得的主要研究成果包括:1)提出一种基于系统辨识领域中的增量递推最小二乘回归参数估计方法与广义似然比检验方法有机结合的数据流实时趋势提取算法。该算法对不断到达的数据流元素,采用增量方法确定线性回归模型参数,利用广义似然比检验判断分段边界点,自动分段给出数据流趋势。与现有趋势提取算法相比,该算法不但计算速度快且精度高;2)提出一种基于数据驱动的数据流在线模式变化鲁棒检测算法。该算法首先以给定长度的两相邻时间窗口对数据流取样,然后以支持向量数据描述方法将这两相邻时间窗口取样的数据流子集映射到规范化的高维特征空间,并分别建立描述这两相邻时间窗口取样数据流子集映像的最小超球模型（排除了其中的离群点）,最后通过计算两超球之间的球心矢量的夹角的余弦,度量该两相邻时间窗口取样数据流子集的相似性检测模式变化。该算法不需要先验知识,不受离群点影响,具有较强鲁棒性;3)提出一种基于偏向最近动态最小二乘支持向量回归（RBDLS-SVR）的离群点检测算法。该算法由于采用了基于RBDLS-SVR方法建模,将SVM的学习问题转化为解线性方程组问题,并采用了增量遗忘机制高精度跟踪数据流动态。因此避免了采用一般SVR建模方法应用于数据流回归建模时,每增加或减少一个样本就需要完全重新进行一次求解计算的缺陷,不但计算速度快而且精度高,能有效检测数据流中的离群点;4)提出一种基于倾斜时间窗口的数据流偏向最近聚类算法。该算法首先通过将滑动窗口中数据等长分割形成不重叠的数据块——基本窗口,然后对每一基本窗口以Haar小波变换提取窗口数据的特征,通过改变所雀骰敬翱谛〔ū浠幌凳鍪锏奖Ａ艚隙嘧罱菹附谔卣鞯哪康?即对于越近的基本窗口保留越多的小波系数而越旧的基本窗口保留越少的小波系数,最后通过定义数据流偏向最近距离,完成基于倾斜时间窗口的偏向最近聚类算法。该算法计算速度快,能高效地实现数据流偏向最近聚类分析;5)阐述了数据流模式发现在实际生产过程中的应用。针对复杂的钢铁生产过程数据,应用本文提出的数据流模式发现算法完成两个挖掘任务:离群点检测及突变发现。理论与实践表明,本文提出的算法在大规模工业生产过程数据分析方面有广阔前景。总之,本文主要研究了高性能数据流模式发现算法及其在工业生产过程的应用,这些算法是对现有数据流模式发现的有益补充或改进。理论和实验都表明,与现有算法相比,本文提出的算法在性能（处理速度、处理精度及鲁棒性）方面有明显优势。

论文目录

摘要

ABSTRACT

致谢

第一章绪论

1.1 研究背景和意义

1.2 数据流及其特点

1.3 数据流模式发现面临的挑战

1.4 数据流挖掘方法的研究现状

1.4.1 数据流模型研究

1.4.2 数据流基本处理技术研究

1.4.3 数据流挖掘算法研究

1.4.3.1 数据流聚类算法

1.4.3.2 数据流分类算法

1.4.3.3 数据流频繁模式发现算法

1.4.3.4 异常、趋势和变化检测算法

1.4.4 数据流挖掘系统研究

1.5 本文主要研究内容

1.6 本文主要研究成果

1.7 本文组织结构

1.8 本章小结

第二章数据流的实时趋势分析算法

2.1 引言

2.2 问题描述

2.3 增量式数据流实时趋势分析方法

2.3.1 递推最小二乘回归建模

2.3.2 广义似然比分割点检测

2.3.3 数据流趋势分析算法及特性分析

2.4 仿真实验

2.4.1 测试数据集

2.4.2 实际数据集

2.5 本章小结

第三章一种数据流模式变化的鲁棒检测算法研究

3.1 引言

3.2 问题描述

3.3 支持向量数据描述

3.4 动态支持向量数据描述

3.4.1 保温增量计算

3.4.2 减量计算

3.5 鲁棒数据流模式变化检测算法

3.5.1 相似性指数计算

3.5.2 数据流模式变化鲁棒检测算法

3.5.3 算法分析

3.6 仿真实验

3.6.1 人工数据集仿真

3.6.2 实际数据仿真

3.7 本章小结

第四章基于偏向最近动态最小二乘支持向量回归的数据流离群点检测算法

4.1 引言

4.2 支持向量回归基本概念

4.2.1 支持向量回归SVR

4.2.2 最小二乘支持向量回归LS-SVR

4.3 偏向最近动态最小二乘支持向量回归RBDLS-SVR

4.3.1 动态最小二乘支持向量回归DLS-SVR

4.3.1.1 增加一个新样本

4.3.1.2 删除一个样本

4.3.2 偏向最近动态最小二乘支持向量回归RBDLS-SVR

4.4 基于RBDLS-SVR的数据流离群点检测算法

4.5 仿真实验

4.5.1 人工合成数据仿真实验

4.5.2 实际数据仿真实验

4.6 本章小结

第五章一种数据流偏向最近聚类分析算法

5.1 引言

5.2 问题描述

5.3 数据流预处理及更新

5.3.1 数据流和滑动窗口

5.3.2 数据流标称化

5.3.3 离散小波变换

5.3.4 倾斜时间窗口Haar小波变换特征提取

5.4 数据流偏向最近聚类分析算法

5.4.1 距离等价度量模型

5.4.2 数据流偏向最近增量k-means聚类算法

5.4.3 算法分析

5.5 仿真实验

5.5.1 倾斜时间窗口Haar小波数据约简评价

5.5.2 偏向最近距离评价实验

5.5.3 聚类算法评价实验

5.6 本章小结

第六章数据流模式发现在钢铁生产过程的应用

6.1 引言

6.2 用于连铸生产质量监控的数据流离群点清理和缺失值处理

6.3 用于连铸生产漏钢预报的数据流模式突变检测

6.4 本章小结

第七章工作总结与研究展望

7.1 研究工作总结

7.2 研究展望

7.3 本章小结

参考文献

攻读博士学位期间发表论文和参与的科研项目

高性能数据流模式发现算法及其应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢