不确定数据流环境下聚类算法的研究与实现

不确定数据流环境下聚类算法的研究与实现

论文摘要

数据挖掘技术因其能从海量的信息中提取有用的知识模式而受到人们普遍的关注,而聚类作为其中一种重要的数据挖掘方法,能够从用户给出的描述数据对象的信息中将数据对象分组,从而发现数据分布与属性之间的关系,因此被广泛用于许多应用领域。近年来,随着数据收集技术的进步,人们对数据的认识也逐步加深,数据的不确定性问题日渐引起人们的关注。传统的聚类技术无法直接应用到不确定数据上,因此需要对不确定数据的聚类技术进行研究。然而在大多数应用场合,数据并不都是存放于数据库中,而是以数据流的形式存在。由于流数据具有时间有序、速度可变、数据量巨大等特点,因此对于不确定数据流的聚类技术有着更高的要求。例如在数据流环境下,数据快速到达,要求聚类算法具有较快的处理速度。但当聚类的对象是不确定数据的时候,算法的时间开销很大。本文从缩短聚类时间的角度考虑,提出两种面向不确定数据流环境的聚类算法。文中首先对不确定数据点用MBR描述其实例的分布特征,并证明了不确定数据点和簇的期望距离可以用不确定数据点MBR的中心点和簇心之间的确定距离来表示,且误差不会超过MBR对角线的一半。基于此,提出了一种不确定数据流环境下的聚类算法,通过期望距离范围的上下界排除一些距离较远的簇,从而达到减少计算代价的目的。其次,为了进一步提高算法的性能,文中根据簇内数据点的分布特征提出了簇的MBR的概念,并根据不确定数据点MBR和簇的MBR的位置关系提出了一种新的划分数据点的策略。MBR的位置关系有三种:包含、相交、相离,通过简单的判断不确定数据点MBR和微簇MBR的位置关系,可以将一些距离当前不确定数据点明显较远的簇排除,从而提高聚类算法效率。最后,本文对提出的两种算法进行了实验验证,实验结果表明两种算法均能有效的减少计算的代价,从而缩短聚类执行的时间。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.1.1 聚类技术概述
  • 1.1.2 数据流
  • 1.1.3 不确定数据产生原因
  • 1.2 国内外研究现状
  • 1.3 本文主要工作
  • 1.4 本文组织结构
  • 第2章 相关工作
  • 2.1 不确定数据模型
  • 2.2 数据流聚类
  • 2.2.1 单边扫描算法
  • 2.2.2 演化算法
  • 2.3 不确定数据聚类
  • 2.3.1 基于划分的方法
  • 2.3.2 基于密度的方法
  • 2.3.3 其它方法
  • 2.4 不确定数据流聚类
  • 2.5 本章小结
  • 第3章 基于剪枝技术的不确定数据流聚类算法
  • 3.1 问题描述及相关定义
  • 3.1.1 问题描述
  • 3.1.2 相关定义
  • 3.2 基于期望距离的聚类算法
  • 3.2.1 期望距离的等价化
  • 3.2.2 三角不等式剪枝策略
  • 3.2.3 算法框架
  • 3.2.4 时间复杂性分析
  • 3.3 基于空间位置关系的聚类算法
  • 3.3.1 微簇的聚类特征结构
  • 3.3.2 MBR的空间位置关系
  • 3.3.3 边界情况的优化
  • 3.3.4 算法框架
  • 3.4 算法的扩展
  • 3.5 本章小结
  • 第4章 实验及结果分析
  • 4.1 实验环境与实验设计
  • 4.1.1 实验环境
  • 4.1.2 实验数据集
  • 4.1.3 实验方案
  • 4.2 性能分析
  • 4.2.1 效率和有效性
  • 4.2.2 参数影响
  • 4.2.3 扩展性
  • 4.3 本章小结
  • 第5章 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].一种联系数表达的位置不确定数据流聚类算法[J]. 小型微型计算机系统 2020(02)
    • [2].基于概率分布的不确定数据聚类[J]. 深圳信息职业技术学院学报 2018(05)
    • [3].基于密度的不确定数据流聚类算法[J]. 清华大学学报(自然科学版) 2017(08)
    • [4].基于近邻传播的不确定数据流演化聚类算法[J]. 模式识别与人工智能 2016(05)
    • [5].隐含概念漂移的不确定数据流集成分类算法[J]. 计算机工程与科学 2016(07)
    • [6].一种基于预裁剪的不确定数据流频繁项集挖掘算法[J]. 科学技术与工程 2016(23)
    • [7].大数据环境下的不确定数据流在线分类算法[J]. 东北大学学报(自然科学版) 2016(09)
    • [8].不确定数据流多维建模方法[J]. 国防科技大学学报 2014(05)
    • [9].基于粗糙模糊集的不确定数据流聚类算法[J]. 计算机科学与探索 2014(12)
    • [10].基于概率分布相似性的不确定数据聚类算法研究[J]. 高考 2016(36)
    • [11].障碍空间中基于网格的不确定数据聚类算法[J]. 计算机科学与探索 2019(03)
    • [12].高维不确定数据的子空间聚类算法[J]. 计算机应用 2019(11)
    • [13].不确定数据的有效查询处理评估技术研究[J]. 铜陵职业技术学院学报 2018(03)
    • [14].基于非参数估计与随机模拟的不确定数据流相似性度量方法[J]. 山东农业大学学报(自然科学版) 2017(04)
    • [15].基于自适应快速决策树的不确定数据流概念漂移分类算法[J]. 控制与决策 2016(09)
    • [16].一种存在级不确定数据流聚类算法[J]. 计算机应用与软件 2015(04)
    • [17].一种基于高斯混合模型的不确定数据流聚类方法[J]. 计算机研究与发展 2014(S2)
    • [18].不确定数据流自适应并行连接算法及应用[J]. 电信科学 2012(02)
    • [19].基于频繁密度分布模式的不确定数据流查询方法[J]. 哈尔滨工程大学学报 2018(06)
    • [20].一种面向不确定数据流的聚类算法[J]. 东北大学学报(自然科学版) 2016(12)
    • [21].一种面向多属性不确定数据流的模体发现算法[J]. 电子与信息学报 2017(01)
    • [22].基于小波分析的不确定数据流异常数据检测[J]. 软件导刊 2011(11)
    • [23].障碍空间中基于密度的不确定数据聚类算法[J]. 小型微型计算机系统 2017(12)
    • [24].元组级不确定数据库的概率频繁项集挖掘[J]. 南阳理工学院学报 2018(04)
    • [25].一种面向不确定数据流的模体发现算法[J]. 电子科技大学学报 2017(01)
    • [26].基于免疫原理的不确定数据流聚类算法[J]. 模式识别与人工智能 2012(05)
    • [27].时间序列不确定数据流中异常数据检测方法[J]. 电子设计工程 2011(19)
    • [28].基于优化策略的不确定数据流预测方法[J]. 计算机工程 2011(21)
    • [29].一种不确定数据流聚类算法[J]. 软件学报 2010(09)
    • [30].不确定数据流上的离群点检测处理[J]. 湖南大学学报(自然科学版) 2020(02)

    标签:;  ;  ;  ;  ;  

    不确定数据流环境下聚类算法的研究与实现
    下载Doc文档

    猜你喜欢