聚类分析和离群点识别技术研究及其应用

聚类分析和离群点识别技术研究及其应用

论文摘要

离群点识别和聚类分析是数据挖掘研究的重要方面,基于离群点分析的各种数据挖掘算法的研究已经成为研究热门方向。但是目前大多数的离群点分析算法只是针对于静态数据集的操作,对于动态数据集一般采取对整个数据集重新进行离群点分析的方式,因此随着数据量的不断增大以及对数据集实时数据挖掘的需求不断加大,增量式离群点分析技术正越来越引人关注。本文首先总结、探讨关于数据挖掘、离群点分析、聚类算法以及计算机审计等方面取得的已有主要研究成果,并详细阐释了基于密度的聚类算法DBSCAN和基于密度的离群点识别算法LOF的主要思想、算法流程,并在此基础上,提出了基于局部密度的增量式离群点识别算法IncrementalLOF,并结合社会保障联网审计系统(N-SAS),通过实验验证了LOF与IncrementalLOF在离群点分析结果上的一致性,和IncrementalLOF在大数据量环境下更加卓越的性能,以及IncrementalLOF能对所提供的数据进行挖掘,得出一些反常的、隐藏在大数据后的有违规缴费等可能的信息,为社保审计提供可靠依据,提高审计工作效率,规范社会保险业务,减少社会保险金欺诈等。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题研究的目的和意义
  • 1.3 国内外研究现状
  • 1.3.1 计算机审计研究现状
  • 1.3.2 数据挖掘研究现状
  • 1.5 本文的主要内容和组织结构
  • 第2章 聚类分析和离群点识别
  • 2.1 数据挖掘
  • 2.2 KDD及其步骤
  • 2.3 数据挖掘的方法和技术
  • 2.3.1 数据挖掘的方法
  • 2.3.2 数据挖掘的技术
  • 2.4 聚类方法
  • 2.4.1 划分方法
  • 2.4.2 层次方法
  • 2.4.3 基于网格的方法
  • 2.4.4 基于模型的方法
  • 2.4.5 基于密度的聚类
  • 2.5 离群点识别方法
  • 2.6 本章小结
  • 第3章 一种基于密度的增量式局部离群点识别算法
  • 3.1 基于密度的局部离群点识别算法
  • 3.1.1 局部离群点识别的必要性
  • 3.1.2 局部离群点的识别
  • 3.2 基于密度的典型聚类算法
  • 3.2.1 DBSCAN算法思想
  • 3.2.2 DBSCAN算法相关概念
  • 3.2.3 DBSCAN算法过程和缺点
  • 3.3 基于密度的增量式局部离群点识别算法
  • 3.3.1 算法思想
  • 3.3.2 初始化数据集聚类阶段
  • 3.3.3 增量聚类阶段
  • 3.3.4 增量数据离群点分析
  • 3.4 性能分析
  • 3.4.1 算法的正确性
  • 3.4.2 算法的可行性
  • 3.4.3 时间复杂度
  • 3.5 实验结果
  • 3.6 本章小结
  • 第4章 增量离群点识别技术在社保审计中的应用
  • 4.1 实现目的
  • 4.2 算法的VC++ .NET实现
  • 4.2.1 VC++ .NET简介
  • 4.2.2 增量式离群点识别系统设计
  • 4.2.3 数据选择
  • 4.2.4 数据清理
  • 4.2.5 实现初始数据集聚类与离群点识别
  • 4.2.6 实现增量聚类与离群点识别
  • 4.3 社保审计数据挖掘实验与结果分析
  • 4.3.1 K值的选择
  • 4.3.2 增量离群点识别
  • 4.3.3 实验结果与N-SAS系统审计结果比较
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  

    聚类分析和离群点识别技术研究及其应用
    下载Doc文档

    猜你喜欢