论文摘要
数据流是一种新的数据形态。许多应用中会连续不断产生大量随时间演变的序列型数据,构成时间序列数据流,如传感器网络、实时股票行情、网络及通信监控等场合。数据挖掘是分析这类并行多数据流的一种有力工具。但由于数据流长度无限、随时间演变、持续到达、速度快和纬度高的特点,使得传统的数据挖掘方法无法直接应用,于是就出现了一种新的技术——流数据挖掘,也叫数据流挖掘。流数据的这种特殊性使得处理起来困难重重。流数据挖掘的确可以处理数据流,然而,也出现了前所未有的挑战。主要的挑战是被空间(内存)和时间的有限资源所制约的“数据密集型”挖掘。我们需要考虑的第一个根本问题就是如何优化挖掘算法所消耗的内存空间。另一个问题就是如何在最短的时间内完成对数据的处理,以满足数据流处理的实时性。目前这两个问题还没有很好的解决方法。本文主要研究的是GPU并行计算在数据流挖掘领域的应用,特别是高维时间序列数据流的高性能处理问题。在计算资源受限的环境下,为了保证数据流处理的实时性和通用性,本文结合GPU并行计算和CUDA架构,提出了一种基于GPU的数据流通用处理模型。该通用模型适合于各个应用领域的多条高维时间序列数据流,它涵盖了数据流的预处理、减负、概要抽取和挖掘处理等多项功能,能完成数据流处理时的多项任务,如查询处理、聚类、分类、频繁项集挖掘等。本文以k-means聚类算法为例,详细描述了模型中核心区的技术实现。最后,还给出了模型的软件体系结构描述,包括以UML为代表的可视化描述和以ADL为代表的形式化描述,本文采用UML和ADL相结合的方法来描述系统的体系结构。经理论分析和实验验证,该模型有较好的通用性和高效性,又降低了I/0开销,可广泛应用于数据流挖掘领域。