离群点快速挖掘算法的研究

离群点快速挖掘算法的研究

论文摘要

离群点挖掘又称异常检测、小事件检测、例外挖掘、孤立点挖掘、偏差检测等。离群点可能是“脏数据”,也可能是与实际对应的有意义的事件。从知识发现的角度看,在某些应用中,那些很少发生的事情往往比经常发生的事情更有趣、也更有研究价值。因此,离群点挖掘是一项重要且有意义的研究工作。目前,离群挖掘正逐渐成为数据库、机器学习、统计学等领域研究人员的研究热点。由于信息数据的高维性、复杂性和巨量性,传统的离群点挖掘方法不能很好地适用于高维大数据集,且往往所获得数据是不完整的、用户也只关心局部不稳定的数据,故对局部离群点的挖掘是本文的重点。离群点快速挖掘算法需要解决邻域的确定和离群点的判断这两个主要问题。采用属性划分方法将数据对象的属性划分为环境属性和行为属性,用环境属性确定对象邻域,行为属性完成离群点的判断。面向高维数据降维、对海量数据的剪枝是本文离群点快速挖掘算法的两个关键点。本文的主要贡献如下:1、分析了高维数据的特点,提出一种基于属性划分局部线性嵌入降维算法(Locally Linear Embedding based on Attribute division,Ad-LLE)。Ad-LLE算法不但继承了局部线性嵌入(Locally Linear Embedding,LLE)算法的平移、旋转以及缩放不变性,同时运用环境属性确定对象的局部邻域,依据对象其近邻分布的不同设置相应的邻居权值及邻居个数,在局部邻居的搜索过程中采用R*-树索引环境属性以加快检索速度,分析证明Ad-LLE降维算法更高效、更合理;2、提出一种基于Ad-LLE降维算法的离群点挖掘算法。将上面提出的Ad-LLE降维算法运用到离群点挖掘中,先通过Ad-LLE算法对高维数据降维,使得高维数据能够直接运用传统的离群点挖掘算法进行离群点判断,并与基于距离的离群点检测和其它降维算法运用在离群点检测中的检测效果进行比较,从检测结果来看,本文所提出的算法适合高维数据的离群点挖掘,且在降维和离群点有效检测上都表现出较好的性能;3、结合局部离群点及离群点本身的特点,提出一种离群点快速挖掘算法(Fastoutlier detection,Fast-OD)。人们常常只关注局部离群点,且离群数据本身在整个数据集中只占极少的部分,当数据集较大时,在整个数据集上挖掘离群点是困难、低效的。于是运用两个启发式剪枝策略对数据集中大量存在的非离群数据进行剔除,以提高算法的检测效率,实验证明本文提出的Fast-OD算法具有减少用户依赖性、降低算法复杂度、提高精确度和可伸缩性的优点;4、通过抽样学习获得全局近似离群度GnGlobal Threshold,GT)和局部近似离群度LTN(JI)(Local Threshold,LT)值。Fast-OD算法中计算GT和LTN(yi)时,若数据集中对象个数N很大时,用整个数据集进行计算很困难、很耗时,采用均匀抽样的方法来获取GT和ITN(yi)值,大大降低了算法的复杂度,理论和分析表明采用抽样技术使Fast-OD算法更能适用于高维大型数据库。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究现状
  • 1.3 主要内容
  • 1.4 组织结构
  • 第二章 数据挖掘和离群点挖掘
  • 2.1 数据挖掘
  • 2.1.1 数据挖掘的定义
  • 2.1.2 数据挖掘的功能
  • 2.1.3 数据挖掘过程
  • 2.1.4 数据挖掘的发展前景
  • 2.2 离群点挖掘概述
  • 2.2.1 离群点产生原因
  • 2.2.2 离群点定义及相关问题
  • 2.2.3 离群点检测的应用
  • 2.3 传统离群点挖掘算法概述
  • 2.3.1 基于统计的离群点挖掘算法
  • 2.3.2 基于深度的离群点挖掘算法
  • 2.3.3 基于距离的离群点挖掘算法
  • 2.3.4 基于密度的离群点挖掘算法
  • 2.3.5 基于聚类的离群点检测算法
  • 2.4 离群点挖掘研究热点及发展趋势
  • 2.4.1 高维大数据集中离群点的挖掘
  • 2.4.2 空间离群点的挖掘
  • 2.4.3 时序离群点的挖掘
  • 2.5 本章小结
  • 第三章 相关技术
  • 3.1 数据预处理
  • 3.1.1 数据清理
  • 3.1.2 数据集成和变换
  • 3.1.3 数据归约
  • 3.2 高维空间中相似性度量方法
  • 3.3 数据挖掘中的抽样技术
  • 3.3.1 抽样的特性
  • 3.3.2 抽样在数据挖掘中的问题
  • 3.4 本章小结
  • 第四章 面向高维的降维及离群点挖掘算法的研究
  • 4.1 高维数据的特点
  • 4.1.1 稀疏性
  • 4.1.2 空空间现象(empty space phenomenon)
  • 4.1.3 维灾(the curse of dimensionality)
  • 4.2 高维索引结构
  • 4.3 PCA及LLE降维方法
  • 4.3.1 PCA算法
  • 4.3.2 LLE算法
  • 4.4 Ad-LLE降维算法
  • 4.4.1 属性划分方法概述
  • 4.4.2 相关定义
  • 4.4.3 算法过程
  • 4.5 基于Ad-LLE降维的离群点挖掘算法
  • 4.5.1 算法描述
  • 4.5.2 实验分析
  • 4.6 本章小结
  • 第五章 离群点快速挖掘算法的研究
  • 5.1 相关分析
  • 5.2 离群点快速挖掘算法的研究
  • 5.2.1 相关定义及性质
  • 5.2.2 Fast-OD算法
  • 5.2.3 算法复杂度分析
  • 5.3 剪枝策略对算法性能的影响
  • 5.3.1 受影响对象
  • 5.3.2 小数据分析
  • 5.4 实际数据测试和分析
  • N(yi)的抽样学习'>5.5 GT和LTN(yi)的抽样学习
  • 5.5.1 抽样技术
  • 5.5.2 抽样后算法性能变化
  • 5.5.3 实例分析
  • 5.6 本章小结
  • 第六章 总结与展望
  • 6.1 工作总结
  • 6.2 进一步工作
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    离群点快速挖掘算法的研究
    下载Doc文档

    猜你喜欢