论文摘要
聚类分析是数据挖掘领域一项重要的研究课题。近年来,由于计算机及应用技术的高速发展,人们获取数据的能力得到了极大的提高。数据流(dataStream)作为一种重要的数据来源,也得到了人们越来越多的关注。如WEB点击流、气象观测信息流、电话记录信息流等。与传统的待处理数据相比,这些数据是高速的、连续的、动态的、变化的、无限的,对它们的访问只能是顺序的、一次或有限次的,对它们的存储也只能是动态的、概要的。数据流的这些特性,给数据流的挖掘带来了极大的困难,也给数据流的聚类算法提出了更高的要求。近年来人们提出了很多聚类算法来处理数据流,并取得了一定的成果。本文首先介绍了数据挖掘的相关算法及技术,然后给出了数据流挖掘的特点,并对已有的数据流聚类成果进行了详细的研究分析,找出了各自的优点和不足。针对这些不足,本文提出了一种新的基于密度的聚类算法-Sdstream算法,来处理进化数据流。Sdstream算法引入了滑动窗口技术,采取了动态剪枝策略,不仅能发现任意形状任意数目的聚类,而且能处理噪声,减少内存开销,并能对数据流历史信息进行查询分析,是一种高效的聚类算法。基于真实数据集和仿真数据集的实验表明,算法具有良好的实用性、有效性和可扩展性,适合处理和分析大规模的进化数据流。