聚类的边界点检测算法研究

聚类的边界点检测算法研究

论文摘要

从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息。这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。聚类的边界点检测有时比聚类分析和孤立点检测更重要,但是聚类的边界点检测却不及聚类分析和孤立点检测受到重视。因此本论文重点对聚类的边界点检测算法进行了研究。论文首先介绍了数据挖掘、聚类分析、孤立点检测和聚类的边界点检测等基本理论以及几种主要的聚类分析算法、孤立点检测算法。本文详细介绍了一种典型的聚类的边界点算法BORDER,在实验的基础上讨论了BORDER算法的优缺点。针对BORDER算法时间复杂度高和精度不高的不足,本文提出了三种不同的聚类的边界点检测算法:噪声数据上的聚类边界点算法BOUND、改进的BOUND算法BRIM和基于引力的聚类边界点检测算法GREEN。并利用对象的反向K-近邻的性质,提出一种新的孤立点检测算法。在综合数据集和真实数据集上做了大量的实验来验证算法的有效性,并用不同规模的综合数据集来验证算法的响应时间。实验结果表明:本文提出的三种边界点检测算法的精度和执行效率均比BORDER算法高;本文提出的基于反向K-近邻的孤立点检测算法在保证精度的情况下,其执行效率高于典型的孤立点检测算法LOF。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景与意义
  • 1.2 论文的思路
  • 1.3 论文贡献
  • 1.4 论文结构
  • 第2章 相关知识
  • 2.1 数据挖掘概述
  • 2.2 聚类分析
  • 2.2.1 聚类算法介绍
  • 2.2.2 基于密度的聚类方法DBSCAN
  • 2.3 孤立点分析
  • 2.3.1 孤立点检测算法介绍
  • 2.4 聚类的边界点分析
  • 2.4.1 边界点检测算法介绍
  • 2.5 本章小结
  • 第3章 聚类的边界点检测算法研究
  • 3.1 对BORDER算法的分析
  • 3.1.1 存在的问题
  • 3.1.2 提出的解决方法
  • 3.2 基于对象的方向关系的边界点检测算法(BOUND)
  • 3.2.1 基本概念
  • 3.2.2 基于对象的方向关系的边界点检测算法(BOUND)
  • 3.2.3 实验结果
  • 3.2.4 时间复杂度分析和效率对比
  • 3.2.5 小结
  • 3.3 高效的边界点检测算法(BRIM)
  • 3.3.1 基本概念
  • 3.3.2 算法描述(BRIM)
  • 3.3.3 实验结果
  • 3.3.4 时间复杂度分析和效率对比
  • 3.3.5 小结
  • 3.4 基于引力的边界点检测算法(GREEN)
  • 3.4.1 基本概念
  • 3.4.2 算法描述
  • 3.4.3 实验结果
  • 3.4.4 算法效率及时间复杂度
  • 3.4.5 小结
  • 第4章 基于反向K-近邻的孤立点算法
  • 4.1 对LOF算法的分析
  • 4.1.1 存在的问题
  • 4.2 基于对象的反向K-近邻的孤立点检测算法ODRKNN
  • 4.2.1 相关概念
  • 4.2.2 算法描述
  • 4.2.3 实验结果
  • 4.2.4 ODRKNN算法的效率
  • 4.3 本章小结
  • 第5章 结论
  • 致谢
  • 参考文献
  • 攻读硕士学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    聚类的边界点检测算法研究
    下载Doc文档

    猜你喜欢