高维孤立点检测算法研究

高维孤立点检测算法研究

论文摘要

孤立点检测是数据挖掘的一个重要方面,因其独特的知识发现功能而得到较为深入的研究。孤立点检测算法已经在金融欺诈检测、网络入侵检测、生态系统失调、天气预报等风险控制领域得到了广泛的应用。但随着应用范围的不断扩大,传统的孤立点检测算法遇到了一些难以克服的障碍,算法效率不能适应大规模数据处理,算法的参数难以选择造成检测结果不稳定,算法不能适应高维数据的特性等。论文主要针对以上问题对孤立点检测技术进行了研究。论文首先详细介绍了传统的孤立点检测算法,并对它们进行了比较和分析,指出它们的不足之处,在此基础上提出基于平均密度的孤立点检测算法(ADOD),以减少用户对参数选择的困难;其次,为了解决高维数据对孤立点检测带来的困难,先提出基于有限比较的最大频繁项目集挖掘算法(LCMFI),再利用LCMFI算法对基于频繁模式的孤立点检测算法(FindFPOF)进行改进,提出基于加权最大频繁模式的孤立点检测算法(FindWMFPOF),该算法以最大频繁模式代替频繁模式计算频繁孤立因子(FPOF),降低了算法的运算规模,具有良好的检测效果。论文主要工作如下:1.对现有的孤立点检测算法进行了分析,指出它们共同存在的不足:算法对参数的选择缺乏自动化。2.提出基于平均密度的孤立点检测算法(ADOD)。用平均密度的概念重新定义孤立点度量,以一个新的视点来检测孤立点,并用实验验证ADOD算法有效性,不仅能在孤立点检测时减少用户对参数选择的困难,而且具有较好的检测效果。3.分析了高维数据的特点及其对传统孤立点检测方法的影响。比较和分析了现有高维孤立点检测算法,指出它们在算法效率上存在的不足。4.提出基于有限比较的最大频繁项目集挖掘算法(LCMFI),给出了相关定义和定理,并对算法的运行效率作了详细地分析和证明,LCMFI算法挖掘2-最大频繁项目集的时间复杂度为O(m·n2)。该算法的提出为改进FindFPOF算法提供了理论基础。5.提出基于加权最大频繁模式的孤立点检测算法(FindWMFPOF)。该算法以最大频繁模式代替FindFPOF算法中的频繁模式,有效降低了数据的处理规模。实验结果表明,以LCMIF算法挖掘最大频繁模式,可使FindWMFPOF算法对高维数据的孤立点检测具有更好的可扩展性,并能有效的检测高维数据的孤立点。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 数据挖掘技术的产生与发展
  • 1.1.2 数据挖掘的分类与任务
  • 1.2 孤立点检测技术发展及研究现状
  • 1.3 本文主要工作
  • 1.4 论文结构
  • 第二章 孤立点检测算法分析
  • 2.1 基于统计的方法
  • 2.2 基于距离的方法
  • 2.3 基于密度的方法
  • 2.3.1 局部异常定义
  • 2.3.2 局部异常因子计算
  • 2.4 基于偏离的方法
  • 2.5 基于聚类的方法
  • 2.6 本章小结
  • 第三章 基于平均密度的孤立点检侧
  • 3.1 算法思想
  • 3.2 相关概念
  • 3.3 ADOD算法描述
  • 3.4 ADOD算法实现
  • 3.5 实例分析
  • 3.6 本章小结
  • 第四章 高维数据孤立点检测
  • 4.1 高维数据的特点
  • 4.1.1 稀疏性
  • 4.1.2 维灾
  • 4.2 高维对孤立点检测算法的影响
  • 4.2.1 高维对基于统计算法的影响
  • 4.2.2 高维对基于距离算法的影响
  • 4.2.3 高维对基于密度算法的影响
  • 4.2.4 高维对基于聚类算法的影响
  • 4.3 高维孤立点检测算法分析
  • 4.3.1 基于空间投影的孤立点检测算法
  • 4.3.2 基于超图模型的孤立点检测算法
  • 4.3.3 基于频繁模式的孤立点检测算法
  • 4.3.4 算法比较
  • 4.4 本章小结
  • 第五章 基于有限比较的最大频繁项目集挖掘算法
  • 5.1 相关概念
  • 5.2 LCMFI算法描述
  • 5.3 算法分析
  • 5.4 本章小结
  • 第六章 基于加权最大频繁模式的孤立点检测
  • 6.1 算法思想
  • 6.2 相关定义
  • 6.3 FindWMFPOF算法描述及分析
  • 6.4 实例分析
  • 6.5 本章小结
  • 第七章 结束语
  • 7.1 工作总结
  • 7.2 进一步工作展望
  • 参考文献
  • 致谢
  • 在读期间所发表的文章
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    高维孤立点检测算法研究
    下载Doc文档

    猜你喜欢