大型数据集中离群数据挖掘算法研究及应用

大型数据集中离群数据挖掘算法研究及应用

论文摘要

目前,数据挖掘在很多领域都是比较热门的一个话题,它是一个从大量的原始数据中发现潜在知识的过程。离群挖掘的主要目的是从大量的、不完全的、有噪声的各种数据中,发现隐含在其中的人们事先不知道但又具有潜在价值的信息或者知识。而离群数据是这样一种数据:它明显偏离其它数据、不满足数据的一般模式或者行为。离群点可能是“噪音”,但也可能是有意义的事件。实际情况下,在某些应用中,那些很少发生的事件很可能比经常发生的事件更有研究价值。因此,离群数据挖掘是一项非常重要且有意义的研究工作。离群数据挖掘已广泛应用于股票市场、电信、金融、入侵检测、天气预报等许多领域。离群数据挖掘包括两部分:离群数据检测和离群数据分析。本文主要研究了离群数据挖掘中的关键问题——离群数据的检测,通过分析几种离群数据挖掘算法的优缺点,提出了基于两次聚类的KNN离群数据挖掘算法,并通过在综合数据集上的实验验证了算法的准确性、高效性以及扩展性,最后将此算法应用于一个论坛注册用户行为的挖掘。本文的主要工作包括如下几方面:1.阐述了离群数据挖掘的国内外现状及其研究的意义、离群数据挖掘的过程及其与数据仓库的关系。综合分析了现有的离群数据挖掘算法,研究了常用的几种离群数据挖掘算法,分析了它们的优缺点、适用范围等。2.详细分析了两种基于KNN的离群数据挖掘算法,并在这两个算法的基础上提出了基于两次聚类的KNN离群数据挖掘算法,在综合数据集上的实验结果表明:基于两次聚类的离群数据挖掘算法是准确的,且较之于原算法更加高效。3.将基于两次聚类的算法应用于一个论坛注册用户的行为分析,结果证明了算法的准确性。论文通过在综合数据集以及真实数据集下进行的实验来评估基于两次聚类算法的性能。实验数据分别来自于UCI机器学习库、自动随机生成数据和一个团购导航网站论坛的注册用户。实验结果表明该算法准确且高效,实验取得了令人满意的结果。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 选题背景及研究意义
  • 1.1.1 问题提出的背景
  • 1.1.2 国内外研究现状
  • 1.1.3 数据挖掘的意义
  • 1.2 论文的主要研究内容及结构
  • 1.2.1 论文针对的主要问题
  • 1.2.2 论文的结构安排
  • 2 离群数据挖掘的基础知识
  • 2.1 数据基础
  • 2.1.1 数据仓库的定义
  • 2.1.2 数据仓库的体系结构
  • 2.2 离群数据挖掘概述
  • 2.2.1 数据挖掘概述
  • 2.2.2 离群数据挖掘概述
  • 2.3 离群数据挖掘与数据仓库的关系
  • 2.4 离群挖掘相关技术
  • 2.4.1 数据预处理
  • 2.4.2 数据抽样
  • 2.4.3 数据挖掘中的聚类
  • 2.5 本章小结
  • 3 离群数据挖掘算法概述
  • 3.1 基于统计的算法
  • 3.2 基于偏离的算法
  • 3.3 基于规则的算法
  • 3.4 基于聚类的算法
  • 3.5 基于密度的算法
  • 3.6 基于距离的算法
  • 3.7 离群数据的分析
  • 3.8 本章小结
  • 4 基于两次聚类的离群数据挖掘算法
  • 4.1 两种有效的KNN 离群挖掘算法
  • 4.1.1 相关定义
  • 4.1.2 基于划分的KNN算法
  • 4.1.3 基于聚类的KNN算法
  • 4.2 基于两次聚类的离群数据挖掘方法
  • 4.2.1 算法思想
  • 4.2.2 算法描述
  • 4.3 基于两次聚类的离群挖掘算法实验结果
  • 4.3.1 算法的准确性验证
  • 4.3.2 算法对N(数据总量)的效率
  • 4.3.3 算法对D(维数)的效率及扩展性
  • 4.4 本章小结
  • 5 基于两次聚类的离群数据挖掘算法的应用
  • 5.1 数据来源
  • 5.2 数据预处理
  • 5.3 挖掘过程及结果
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 论文工作总结
  • 6.2 后续工作展望
  • 致谢
  • 参考文献
  • 附录
  • A. 作者在攻读硕士学位期间发表的论文
  • B. 作者攻读硕士学位期间参加的科研项目
  • 相关论文文献

    • [1].基于数据挖掘算法的成都市流动人口状况研究[J]. 经济研究导刊 2020(03)
    • [2].大数据下的数据挖掘算法在多维度评教模型中的应用[J]. 信息与电脑(理论版) 2020(01)
    • [3].审计信息系统的异常数据挖掘算法和应用[J]. 全国流通经济 2020(19)
    • [4].云计算环境下的数据挖掘算法探究[J]. 网络安全技术与应用 2019(05)
    • [5].基于决策树的大学生职位晋升影响因素数据挖掘算法[J]. 北华大学学报(自然科学版) 2019(06)
    • [6].如何运用数据挖掘算法进行投诉预测分析[J]. 信息通信 2019(11)
    • [7].基于关联规则的数据挖掘算法[J]. 电子技术与软件工程 2018(02)
    • [8].一种基于神经网络的数据挖掘算法[J]. 电脑编程技巧与维护 2017(03)
    • [9].基于数据挖掘算法的电子图书馆智能推荐技术研究[J]. 西南师范大学学报(自然科学版) 2017(07)
    • [10].采用高阶累积量压缩的镀铬加工实时数据挖掘算法[J]. 世界有色金属 2016(09)
    • [11].基于云计算的海量数据挖掘算法[J]. 产业与科技论坛 2015(16)
    • [12].数据挖掘算法基于关联规则的分析和应用[J]. 课程教育研究 2017(11)
    • [13].基于数据挖掘算法的创客校园质量管理模型研究[J]. 现代职业教育 2017(10)
    • [14].基于云计算的数据挖掘算法研究[J]. 无线互联科技 2013(12)
    • [15].基于大数据的高效数据挖掘算法及应用[J]. 信息与电脑(理论版) 2020(19)
    • [16].基于数据挖掘算法数据模型实现大数据分析的方法研究[J]. 电子测量技术 2020(03)
    • [17].数据挖掘算法在云平台应用中的优化与实施[J]. 电子元器件与信息技术 2019(03)
    • [18].关联规则下的数据挖掘算法分析[J]. 信息记录材料 2018(07)
    • [19].一种改进的数据挖掘算法[J]. 科技通报 2016(11)
    • [20].基于神经网络自适应搜索的大数据挖掘算法[J]. 计算机与网络 2016(23)
    • [21].基于R语言的数据挖掘算法研究[J]. 电脑知识与技术 2016(28)
    • [22].云计算平台下数据挖掘算法研究[J]. 信阳农林学院学报 2017(01)
    • [23].入侵检测中常用数据挖掘算法的分析与研究[J]. 无线互联科技 2014(11)
    • [24].基于链距离估计的非显著特征数据挖掘算法[J]. 科技通报 2015(06)
    • [25].数据挖掘算法的研究——以不确定图模型为例[J]. 电脑知识与技术 2015(12)
    • [26].数据挖掘算法的分析探讨[J]. 硅谷 2014(02)
    • [27].动态云模型大规模数据挖掘算法[J]. 长春工业大学学报(自然科学版) 2014(03)
    • [28].常用数据挖掘算法的分析对比[J]. 河南科技 2014(19)
    • [29].高速接入网云计算平台的大数据挖掘算法研究(英文)[J]. 机床与液压 2017(24)
    • [30].数据挖掘算法在中药研究中的应用[J]. 中国药房 2018(19)

    标签:;  ;  ;  ;  

    大型数据集中离群数据挖掘算法研究及应用
    下载Doc文档

    猜你喜欢