数据流挖掘中聚类算法的研究与实现

论文摘要

聚类分析是数据挖掘领域一项重要的研究课题。近年来，由于计算机及应用技术的高速发展，人们获取数据的能力得到了极大的提高。数据流（dataStream）作为一种重要的数据来源，也得到了人们越来越多的关注。如WEB点击流、气象观测信息流、电话记录信息流等。与传统的待处理数据相比，这些数据是高速的、连续的、动态的、变化的、无限的，对它们的访问只能是顺序的、一次或有限次的，对它们的存储也只能是动态的、概要的。数据流的这些特性，给数据流的挖掘带来了极大的困难，也给数据流的聚类算法提出了更高的要求。近年来人们提出了很多聚类算法来处理数据流，并取得了一定的成果。本文首先介绍了数据挖掘的相关算法及技术，然后给出了数据流挖掘的特点，并对已有的数据流聚类成果进行了详细的研究分析，找出了各自的优点和不足。针对这些不足，本文提出了一种新的基于密度的聚类算法-Sdstream算法，来处理进化数据流。Sdstream算法引入了滑动窗口技术，采取了动态剪枝策略，不仅能发现任意形状任意数目的聚类，而且能处理噪声，减少内存开销，并能对数据流历史信息进行查询分析，是一种高效的聚类算法。基于真实数据集和仿真数据集的实验表明，算法具有良好的实用性、有效性和可扩展性，适合处理和分析大规模的进化数据流。

论文目录

摘要

Abstract

第1章绪论

1.1 相关概念

1.1.1 数据挖掘

1.1.2 数据流

1.1.3 数据流挖掘

1.2 国内外研究现状

1.3 热门技术的应用

1.4 本文工作及内容安排

第2章数据流聚类算法概述

2.1 传统聚类算法

2.1.1 聚类分析简介

2.1.2 聚类的实际应用

2.1.3 数据挖掘对聚类算法的典型要求

2.1.4 典型聚类算法

2.2 现有数据流聚类算法

2.2.1 数据流聚类分析的特点

2.2.2 相关算法

2.3 数据流聚类算法思想的影响

2.4 本章小结

第3章基于密度的聚类算法模型

3.1 算法的基本思想

3.1.1 基于密度方法的相关概念

3.1.2 滑动窗口模型

3.2 相关定义

3.3 在线聚类模型

3.3.1 获取参考簇

3.3.2 剪枝策略

3.4 离线再处理模型

3.4.1 生成聚类

3.4.2 演化分析

3.5 本章小结

第4章实验分析

4.1 实验环境与数据集

4.2 有效性测试

4.2.1 聚类形状的比较

4.2.2 聚类质量的比较

4.2.3 执行效率的比较

4.3 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

数据流挖掘中聚类算法的研究与实现

论文摘要

论文目录

相关论文文献