基于免参数据挖掘的相异度度量研究

基于免参数据挖掘的相异度度量研究

论文摘要

近年来随着数据挖掘的迅速发展,各种聚类、分类等技术已广泛应用于各种领域,但其中参数设置带来的问题也越来越引起研究人员的注意。于是,免参数据挖掘思想应运而生。本文深入分析了参数设置对数据挖掘结果的各种影响,大量研究表明参数的设定是影响甚至导致数据挖掘结果出错的重要因素之一,因此在数据挖掘的各个环节实现免参是解决这些问题的一个途径。文章从相异度度量方法入手,在对Kolmogorov(描述)复杂理论研究的基础上,将其和免参数据挖掘思想相结合,提出了一种基于压缩的相异度度量方法SCDM(Symmetrical Compression-BasedDissimilarity Measure)。该方法采用压缩算法估计Kolmogorov复杂度,由于压缩算法本身的高效性,使得该方法也具有较高的效率。本文使用MATLAB仿真软件、标准压缩软件以及DNA序列专用的GenCompress压缩软件实现了SCDM的功能,在DNA序列和实时序列上做了大量实验,与带参的距离度量方法及欧氏距离的结果进行了比较,分析了SCDM方法的正确率。本文还将SCDM方法应用到了层次聚类算法中,实验结果表明,由于SCDM方法采用了压缩算法,所以对被比较对象要求不高,只要维数相近就不需要标准化,也允许少量数据点的丢失,再加上压缩算法本身的时间空间高效性,对高维数据的处理也比较容易,可以省去其它方法对高维数据进行降维处理这一步骤。而且SCDM方法不需要参数设定,因而不需要参数训练和选择,避免了参数设置不当对聚类结果的影响,很好地提高了算法的正确率。应用SCDM方法的层次聚类算法的聚类准确率也较高。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第1章 引言
  • 1.1 研究背景与意义
  • 1.2 研究内容与思路
  • 1.3 论文组织结构
  • 第2章 相关知识介绍
  • 2.1 数据挖掘概述
  • 2.1.1 数据挖掘概念及发展简史
  • 2.1.2 数据挖掘的对象
  • 2.1.3 数据挖掘的方法
  • 2.1.4 数据挖掘的应用
  • 2.2 免参数据挖掘
  • 2.3 Kolmogorov复杂度
  • 2.3.1 Kolmogorov复杂度的通用性(Universality)
  • 2.3.2 理论内容
  • 第3章 相似/相异度度量
  • 3.1 相似/相异度简介
  • 3.2 一些常用的相似/相异度度量介绍
  • 3.2.1 欧氏距离
  • 3.2.2 DTW(Dynamic time warping):动态时间规整
  • 3.2.3 SVM(Support Vector Machines):支持向量机
  • 3.2.4 其他一些相异度度量
  • 3.3 当前相异度度量存在的问题
  • 第4章 基于压缩的相异度度量SCDM
  • 4.1 免参距离公式
  • 4.1.1 距离的定义
  • 4.1.2 免参距离公式的通用性和正确性的证明
  • 4.2 免参距离的实现
  • 4.3 SCDM
  • 4.3.1 对称性问题
  • 4.3.2 简化
  • 4.4 SCDM的实现
  • 4.4.1 SCDM可作用的数据
  • 4.4.2 SCDM的实现步骤
  • 4.5 SCDM的特点及应用
  • 4.5.1 SCDM的特点
  • 4.5.2 SCDM的应用
  • 第5章 SCDM方法在聚类算法中的应用
  • 5.1 基于SCDM方法的聚类算法
  • 5.1.1 传统的聚类方法
  • 5.1.2 基于SCDM方法的聚类算法描述
  • 5.2 基于SCDM方法的聚类算法分析
  • 5.3 SCDM方法的实现工具及聚类结果分析
  • 5.3.1 压缩工具的选择
  • 5.3.2 使用SCDM方法对DNA串聚类的结果分析
  • 5.3.3 SCDM方法对实时序列的聚类结果分析
  • 5.4 结论
  • 第6章 总结与展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间的研究成果
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  

    基于免参数据挖掘的相异度度量研究
    下载Doc文档

    猜你喜欢