Print

数据流挖掘中聚类算法的研究与实现

论文摘要

聚类分析是数据挖掘领域一项重要的研究课题。近年来,由于计算机及应用技术的高速发展,人们获取数据的能力得到了极大的提高。数据流(dataStream)作为一种重要的数据来源,也得到了人们越来越多的关注。如WEB点击流、气象观测信息流、电话记录信息流等。与传统的待处理数据相比,这些数据是高速的、连续的、动态的、变化的、无限的,对它们的访问只能是顺序的、一次或有限次的,对它们的存储也只能是动态的、概要的。数据流的这些特性,给数据流的挖掘带来了极大的困难,也给数据流的聚类算法提出了更高的要求。近年来人们提出了很多聚类算法来处理数据流,并取得了一定的成果。本文首先介绍了数据挖掘的相关算法及技术,然后给出了数据流挖掘的特点,并对已有的数据流聚类成果进行了详细的研究分析,找出了各自的优点和不足。针对这些不足,本文提出了一种新的基于密度的聚类算法-Sdstream算法,来处理进化数据流。Sdstream算法引入了滑动窗口技术,采取了动态剪枝策略,不仅能发现任意形状任意数目的聚类,而且能处理噪声,减少内存开销,并能对数据流历史信息进行查询分析,是一种高效的聚类算法。基于真实数据集和仿真数据集的实验表明,算法具有良好的实用性、有效性和可扩展性,适合处理和分析大规模的进化数据流。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 相关概念
  • 1.1.1 数据挖掘
  • 1.1.2 数据流
  • 1.1.3 数据流挖掘
  • 1.2 国内外研究现状
  • 1.3 热门技术的应用
  • 1.4 本文工作及内容安排
  • 第2章 数据流聚类算法概述
  • 2.1 传统聚类算法
  • 2.1.1 聚类分析简介
  • 2.1.2 聚类的实际应用
  • 2.1.3 数据挖掘对聚类算法的典型要求
  • 2.1.4 典型聚类算法
  • 2.2 现有数据流聚类算法
  • 2.2.1 数据流聚类分析的特点
  • 2.2.2 相关算法
  • 2.3 数据流聚类算法思想的影响
  • 2.4 本章小结
  • 第3章 基于密度的聚类算法模型
  • 3.1 算法的基本思想
  • 3.1.1 基于密度方法的相关概念
  • 3.1.2 滑动窗口模型
  • 3.2 相关定义
  • 3.3 在线聚类模型
  • 3.3.1 获取参考簇
  • 3.3.2 剪枝策略
  • 3.4 离线再处理模型
  • 3.4.1 生成聚类
  • 3.4.2 演化分析
  • 3.5 本章小结
  • 第4章 实验分析
  • 4.1 实验环境与数据集
  • 4.2 有效性测试
  • 4.2.1 聚类形状的比较
  • 4.2.2 聚类质量的比较
  • 4.2.3 执行效率的比较
  • 4.3 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/40334c1d0b68fe9c3e71a207.html