基于最近邻相似度的孤立点检测及半监督聚类算法

基于最近邻相似度的孤立点检测及半监督聚类算法

论文摘要

聚类分析是数据挖掘领域的一种重要方法,聚类结果的好坏不仅依赖于相似度或者距离的定义,而且数据集中的孤立点也会影响聚类的效果。传统聚类分析是一种无监督的学习,没有先验知识的指导。在实际应用中,人们往往可以利用样本空间的一些先验知识或背景信息来解决类标号难的问题,因此产生了半监督聚类。本文首先介绍了聚类分析的相关知识,对数据挖掘中最基本的相似性度量进行了总结。对传统聚类算法进行了分析,给出了传统聚类算法的分类以及主要算法的性能比较;并详细论述了半监督聚类算法的框架以及它与传统聚类算法的不同之处。其次提出了基于最近邻的孤立点检测算法。首先分析了孤立点检测的重要性,给出了最近邻集的确定方法,并详细介绍了检测算法的具体步骤,并使用人工数据集和真实数据集验证了算法的准确性与高效性。本文还提出了基于共享最近邻的半监督聚类算法。首先研究了半监督算法中先验知识的相关情况,介绍了先验知识的获取方式以及表现形式,并提出对约束集扩展的两种方法:根据约束集本身的传递性以及数据集的特点对约束进行扩展。算法结合了扩展后的最近邻集,根据数据点间的SNN相似度构建SNN相似度图,使用图形分割方法得到聚类结果,并通过真实数据集验证了约束扩展方式的有效性以及聚类算法的高性能。最后,本文结合孤立点检测算法和半监督聚类算法,在一个含有孤立点的数据集上进行实验,先对数据集进行“去噪”处理,然后对其进行半监督聚类,通过实验验证了算法在孤立点检测以及半监督聚类方面,比其他算法具有更高的准确性。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 数据挖掘概述
  • 1.2 课题研究背景与意义
  • 1.3 国内外研究现状
  • 1.4 本文主要内容及创新之处
  • 第2章 聚类分析的相关知识
  • 2.1 数据的相似性度量
  • 2.1.1 相似度的定义
  • 2.1.2 常用的相似性度量方式
  • 2.1.3 共享最近邻相似度
  • 2.2 传统聚类算法分析
  • 2.2.1 传统聚类算法简述
  • 2.2.2 传统聚类算法分类
  • 2.2.3 传统聚类算法性能比较
  • 2.3 半监督聚类算法分析
  • 2.3.1 半监督聚类的假设
  • 2.3.2 半监督学习框架
  • 2.3.3 主动学习与半监督学习
  • 2.4 本章小结
  • 第3章 基于最近邻的孤立点检测算法
  • 3.1 研究意义
  • 3.2 最近邻集的确定
  • 3.3 算法描述
  • 3.4 算法特点
  • 3.5 实验分析
  • 3.6 本章小结
  • 第4章 基于共享最近邻的半监督聚类
  • 4.1 研究意义
  • 4.2 共享最近邻
  • 4.3 约束信息
  • 4.3.1 先验知识的获取
  • 4.3.2 先验知识的表现形式
  • 4.3.3 约束集的扩展
  • 4.4 SNN 相似度图
  • 4.5 算法描述
  • 4.6 实验分析
  • 4.6.1 约束扩展性能的验证
  • 4.6.2 算法聚类效果的验证
  • 4.6.3 Lypmphography 数据集上两个算法的结合
  • 4.7 本章小结
  • 第5章 结论和展望
  • 5.1 全文总结
  • 5.2 下一步工作及展望
  • 参考文献
  • 致谢
  • 攻读学位期间参加的科研项目和成果
  • 相关论文文献

    • [1].基于自然最近邻相似图的谱聚类[J]. 计算机应用研究 2020(01)
    • [2].基于距离的相似最近邻搜索算法研究[J]. 北京化工大学学报(自然科学版) 2017(05)
    • [3].静音钻[J]. 科学启蒙 2017(Z1)
    • [4].一种连续最近邻查询的优化方法[J]. 黑龙江工程学院学报(自然科学版) 2013(04)
    • [5].基于新型索引结构的反最近邻查询[J]. 计算机研究与发展 2020(06)
    • [6].基于自然最近邻的离群检测方法研究[J]. 智能计算机与应用 2019(04)
    • [7].概率可视最近邻查询算法[J]. 哈尔滨理工大学学报 2013(06)
    • [8].基于R树及其变种的最近邻查询研究[J]. 现代计算机 2013(09)
    • [9].道路网络中的多类型K最近邻查询[J]. 计算机工程与应用 2012(03)
    • [10].不确定数据上范围受限的最近邻查询算法[J]. 小型微型计算机系统 2012(06)
    • [11].k最近邻域分类算法分析与研究[J]. 甘肃科技 2012(18)
    • [12].基于路网的连续K最近邻查询[J]. 天津理工大学学报 2012(06)
    • [13].不确定对象的反向最近邻查询研究[J]. 黑龙江工程学院学报(自然科学版) 2012(04)
    • [14].范围最近邻查询方法研究[J]. 泰山学院学报 2011(03)
    • [15].反向最近邻查询研究综述[J]. 电脑知识与技术 2011(28)
    • [16].空间数据库中的障碍反向最近邻查询[J]. 计算机工程与应用 2011(34)
    • [17].道路网络中的连续最近邻查询[J]. 计算机工程 2010(08)
    • [18].时空数据库变体最近邻查询问题探讨[J]. 计算机工程与应用 2010(14)
    • [19].空间对象的双色反向最近邻查询研究[J]. 煤炭技术 2009(06)
    • [20].最近邻搜索用于分类问题的一种改进[J]. 南京大学学报(自然科学版) 2009(04)
    • [21].路网环境中关于模糊组最近邻问题的研究[J]. 计算机应用研究 2016(02)
    • [22].最近邻检索问题综述[J]. 新西部(理论版) 2015(09)
    • [23].基于k-最近邻的红外点目标检测方法(英文)[J]. 红外与激光工程 2013(S2)
    • [24].平面中点对一般多边形的最近邻查询研究[J]. 科技通报 2014(01)
    • [25].面向不确定数据的概率阈值可见最近邻查询算法[J]. 小型微型计算机系统 2013(08)
    • [26].面向存在不确定对象的组最近邻查询方法[J]. 小型微型计算机系统 2012(04)
    • [27].空间数据库中连续可视反向最近邻查询[J]. 西南交通大学学报 2012(03)
    • [28].基于查询集空间分布的聚合最近邻查询算法[J]. 计算机应用 2011(09)
    • [29].面向不确定图的k最近邻查询[J]. 计算机研究与发展 2011(10)
    • [30].高维主存的反向K最近邻查询及连接[J]. 计算机工程 2011(24)

    标签:;  ;  ;  ;  ;  

    基于最近邻相似度的孤立点检测及半监督聚类算法
    下载Doc文档

    猜你喜欢