面向审计领域的聚类离群点检测研究

面向审计领域的聚类离群点检测研究

论文摘要

离群点检测又称小事件检测、偏差检测等。在某些应用中,那些小概率发生的事件往往比经常发生的事件更有趣、更有研究价值。聚类算法实质是将数据集中的数据进行分组,使得同一组内的数据尽可能相似而不同组内的数据尽可能不同。以往的有些聚类算法,只是将离群点检测作为聚类过程的副产品,使一些重要信息丢失;而在离群点挖掘时,只注重离群点检测,不关注数据的分布情况,使得离群点分析难度加大,甚至使一些离群点失去了其实际的应用价值。如将离群点挖掘与聚类分析算法有机的结合,可以更准确的了解数据分布情况。审计方法的好坏直接影响着审计结果的质量,动态监测指标直接影响着审计的时效。传统的审计方法往往是由审计专家的经验和政策法规构建的,这存在着多处不足。利用数据挖掘技术在海量的审计数据中挖出对构建审计方法和提炼动态监测指标提供决策依据的数据,此项工作具有理论和实际意义。本文提出DBSCANLOF算法,将DBSCAN的核心对象判定融合到LOF算法中,并重新定义核心对象、增加了k-邻域半径的概念。该算法不但以k-近邻这个概念将聚类算法和离群点算法有机的结合起来,还打破了传统基于聚类的离群点检测算法离群点检测结果受聚类结果的影响、降低了DBSCAN对参数的敏感性及数据空间分布不均匀对聚类结果的影响,并且可以在快速聚类的同时检测离群点。通过多种数据集,比较DBSCANLOF算法与原有一些算法在聚类效果和时效上的差异。然后以社会保障审计数据作为实验数据,对审计数据中复合数据类型数据、不同意义的数值型数据的预处理研究;并利用DBSCANLOF进行实验验证,实现对审计方法构建提供决策依据数据的挖掘功能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究现状
  • 1.2.1 聚类、离群点检测技术
  • 1.2.2 计算机审计
  • 1.3 主要研究内容
  • 1.4 论文结构安排
  • 第2章 相关概念和理论
  • 2.1 数据挖掘概述
  • 2.2 离群点检测技术
  • 2.2.1 基于统计离群点检测
  • 2.2.2 基于近邻度的离群点检测
  • 2.2.3 基于密度的局部离群点检测
  • 2.2.4 基于聚类的离群点检测
  • 2.3 聚类分析简介
  • 2.3.1 数据相似关系
  • 2.3.2 聚类方法
  • 2.3.3 具有噪音识别的聚类算法
  • 2.4 本章小结
  • 第3章 聚类离群点挖掘DBSCAN LOF算法
  • 3.1 DBSCAN研究分析
  • 3.1.1 DBSCAN算法描述
  • 3.1.2 算法复杂度分析
  • 3.1.3 算法有效性分析
  • 3.2 LOF研究分析
  • 3.2.1 LOF算法描述
  • 3.2.2 算法有效性、复杂度分析
  • 3.3 DBSCAN LOF算法
  • 3.3.1 DBSCAN LOF算法描述
  • 3.3.2 算法有效性、复杂度分析
  • 3.4 实验分析
  • 3.5 本章小结
  • 第4章 聚类离群点检测在审计领域中的应用
  • 4.1 应用于社保审计的意义
  • 4.2 算法审计应用模型
  • 4.2.1 审计数据的获取及清理
  • 4.2.2 审计数据的数据选择
  • 4.2.3 混合数据类型的预处理
  • 4.2.4 审计方法发现过程
  • 4.3 社保审计数据挖掘实验与结果分析
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].基于集成方法的离群点检测算法研究[J]. 电子世界 2020(06)
    • [2].基于局部估计密度的局部离群点检测算法[J]. 小型微型计算机系统 2020(02)
    • [3].基于插值的高维稀疏数据离群点检测方法[J]. 计算机工程与科学 2020(06)
    • [4].离群点检测算法的评价指标[J]. 计算机应用 2020(09)
    • [5].离群点识别方法研究[J]. 软件导刊 2019(06)
    • [6].基于离群点检测和分类的软测量方法[J]. 山东化工 2018(09)
    • [7].基于地统计学的空间离群点检测算法的研究[J]. 计算机应用研究 2016(12)
    • [8].基于高频关键词的离群点监测与异类知识研究——从文献分析视角[J]. 情报杂志 2017(05)
    • [9].离群点检测概述[J]. 信息系统工程 2017(05)
    • [10].一种分布式计算的空间离群点挖掘算法[J]. 测绘科学 2017(08)
    • [11].一种基于多标记的局部离群点检测算法[J]. 微电子学与计算机 2017(10)
    • [12].基于改进的离群点检测软测量方法研究[J]. 自动化与信息工程 2015(04)
    • [13].基于集合论估计的电网状态辨识 (四)离群点识别[J]. 电力系统自动化 2016(08)
    • [14].异质网中基于张量表示的动态离群点检测方法[J]. 计算机研究与发展 2016(08)
    • [15].一种基于多示例学习的局部离群点检测算法[J]. 信息与控制 2016(04)
    • [16].集成电路中用于离群点测试选择的总体框架[J]. 工业控制计算机 2014(11)
    • [17].关联子空间离群点挖掘[J]. 小型微型计算机系统 2015(05)
    • [18].基于距离的数据流离群点快速检测[J]. 世界科技研究与发展 2013(04)
    • [19].离群点检测算法在药品不良反应异常信号挖掘中的应用[J]. 现代养生 2017(06)
    • [20].从数学的角度初步看离群点检测算法[J]. 环球市场信息导报 2017(36)
    • [21].一种个性化k近邻的离群点检测算法[J]. 小型微型计算机系统 2020(04)
    • [22].一种面向混合属性数据的邻域粒离群点检测[J]. 小型微型计算机系统 2020(04)
    • [23].基于多相关性的传感数据离群点检测与处理[J]. 测控技术 2020(04)
    • [24].基于主动学习的离群点集成挖掘方法研究[J]. 计算机工程与应用 2020(12)
    • [25].聚类剪枝算法在离群点检测中的应用[J]. 广东通信技术 2018(12)
    • [26].基于多示例学习的局部离群点改进算法[J]. 计算机工程与应用 2019(18)
    • [27].一种改进隔离森林的快速离群点检测算法[J]. 小型微型计算机系统 2019(11)
    • [28].一种基于密度的离群点检测方法[J]. 西南科技大学学报 2018(01)
    • [29].离群点检测技术在教育教学中的应用[J]. 现代教育技术 2018(06)
    • [30].基于图像的重建点云离群点检测算法[J]. 数据采集与处理 2018(05)

    标签:;  ;  ;  

    面向审计领域的聚类离群点检测研究
    下载Doc文档

    猜你喜欢