基于Nystr(?)m扩展的大规模谱聚类算法

基于Nystr(?)m扩展的大规模谱聚类算法

论文摘要

聚类分析技术作为一种有效的工具,在数据挖掘和机器学习相关领域有关广泛的研究和应用。目前,存在大量的成熟的有效的聚类算法,其中,谱聚类算法由于它的深厚的数学理论基础和广泛的应用性,近年来得到了越来越多研究者的关注。谱聚类算法最大的优势在于它的简单,易懂。通过特征空间的映射,将原空间中有挑战性的聚类问题转化为更为直观的容易解决的形式。利用目前已经存在的成熟的特征分解的库,很容易能够实现谱聚类算法。并且,关于谱聚类算法的性能分析有很多有影响力的研究成果。但是,谱聚类算法本身过高的空间(相似度矩阵的存储)和时间(特征分解的计算)复杂度极大的限制了在解决大规模数据集上的可行性。为了降低谱聚类算法在大规模数据集上的复杂度,经常会使用一些低秩逼近去近似一个矩阵。Nystrom方法是一种有效的产生地址逼近矩阵的方法。并且,抽样点的算则是最重要的一个方面。已经存在对于当前存在的几种抽样方法在一些机器学习领域中的误差的理论上的分析。本文中,我们首先简单的总结和概括了关于谱聚类算法的当前的研究现状。并重点介绍和总结了关于Nystrom扩展在谱聚类算法上的应用技术,特别是当前已有的比较成功的抽样算法。但是,目前由于还没有关于矩阵逼近误差对于谱聚类性能分析的研究,在本文中,我们首先使用了可聚类能力的概念来分析Nystrom扩展方法的性能,然后进一步分析了矩阵逼近误差对于谱聚类算法性能的影响。我们的分析结果给出了一种增量的Nystrom扩展的抽样方法。实验结果进一步验证了我们提出的算法的有效性,该算法在一系列聚类任务上都给出了优于已经存在的抽样算法。并且它的时间复杂度并没有大幅度的增加。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 谱聚类算法简述
  • 1.2 本文组织结构
  • 2 谱聚类算法综述
  • 2.1 拉普拉斯矩阵
  • 2.2 谱聚类算法研究热点
  • 2.2.1 关于相似度函数的参数问题
  • 2.2.2 相似度矩阵的改进
  • 2.2.3 自动确定聚类数目
  • 2.2.4 特征向量选择
  • 2.2.5 应用大大规模数据集中
  • 3 基于Nystrom扩展的谱聚类算法
  • 3.1 Nystrom扩展方法
  • 3.1.1 Nystrom扩展方法
  • 3.1.2 Nystrom扩展应用到谱聚类算法
  • 3.1.3 特征向量的正交化
  • 3.2 Nystrom的改进算法
  • 3.2.1 利用k-means算法作为抽样算法
  • 3.2.2 选择抽样
  • 3.2.3 随机抽样
  • 3.2.4 自适应部分抽样
  • 3.2.5 随机与确定性抽样算法
  • 3.2.6 贪心的抽样算法
  • 3.3 使用更多的样本点
  • 3.4 带权重的Nystrom扩展
  • 3.5 并行化处理
  • 4 基于可聚性的抽样算法及分析
  • 4.1 可聚性
  • 4.2 增量抽样算法
  • 4.3 算法分析
  • 5 实验结果及分析
  • 5.1 评价标准
  • 5.2 数据集介绍
  • 5.3 实验结果
  • 5.3.1 人工数据集实验结果
  • 5.3.2 在UCI数据集上聚类结果
  • 5.3.3 图像分割实验
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于Nystr(?)m扩展的大规模谱聚类算法
    下载Doc文档

    猜你喜欢