基于数据分区的密度聚类算法应用研究

基于数据分区的密度聚类算法应用研究

论文摘要

聚类分析是数据挖掘的核心技术,是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。数据对象根据最大类内的相似性,最小类间的相似性原则进行聚类。聚类是数据挖掘的前期预处理过程。密度的聚类算法具有快速、有效处理噪音点和发现任意形状的簇的优点,但是在数据集的密度分布并不均匀的情况下,难以得到较高质量的聚类结果。本文详细研究了基于密度的聚类算法DBSCAN以及基于数据分区的密度聚类算法PDBSCAN。其中PDBSCAN算法运用数据分区预处理时,由于算法中对数据的分区不够准确,常常影响了聚类效果。本文给出了一种改进的数据分区算法,实现了对密度分布不均匀的数据空间进行更精确的分区。试验证明,改进后的算法的聚类效果更佳。大连市国民经济潜力动员分析系统,是根据国民经济动员潜力调查总体实施方案,结合大连市国民经济动员潜力调查的特点,建成可靠、先进的国民经济动员信息化平台,为高效、高质量的完成国家经济动员办公室组织实施的全国国民经济动员工作提供了保障。在系统中的决策支持平台中,针对怎样选择最合适的地理位置建立战时伤病人员中心的问题,将改进后的算法应用于系统中,可以实现自动选择建立战时伤病人员中心的最佳位置,从而完善了地理信息决策支持的功能。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 选题背景
  • 1.2 国内外研究现状
  • 1.3 本文所做的工作
  • 1.4 本文的组织结构
  • 2 数据挖掘与聚类算法
  • 2.1 数据挖掘技术概述
  • 2.1.1 数据挖掘技术
  • 2.1.2 数据挖掘过程
  • 2.2 数据挖掘的对象
  • 2.2.1 关系数据库
  • 2.2.2 数据仓库
  • 2.2.3 对象-关系数据库
  • 2.2.4 其他类型的挖掘对象
  • 2.3 数据挖掘方法分类
  • 2.4 数据挖掘系统的分类
  • 2.5 聚类算法
  • 2.6 各种聚类算法的比较
  • 2.7 几种常用的聚类质量评价方法
  • 2.8 相似性和相异性的度量方法
  • 3 数据分区与密度的聚类算法的研究
  • 3.1 密度聚类算法分类
  • 3.2 DBSCAN算法
  • 3.3 算法描述
  • 3.3.1 使用的数据类型
  • 3.3.2 k-dist图的作用
  • 3.4 R*树索引结构研究
  • 3.4.1 R*树
  • 3.4.2 R*树的操作
  • 3.5 DBSCAN算法的优点
  • 3.6 DBSCAN算法的缺点
  • 3.7 改进的分区密度聚类
  • 3.7.1 使用数据分区算法的目的
  • 3.7.2 PDBSCAN的合理性
  • 3.7.3 PDBSCAN的对于数据分区的缺陷
  • 3.7.4 对于PDBSCAN的改进
  • 3.7.5 改进后的算法综合评价
  • 3.7.6 算法的完整实现
  • 4 实验
  • 4.1 实验结果
  • 4.2 结果分析
  • 5 应用
  • 5.1 国民经济动员的定义与评价体系
  • 5.1.1 国民经济动员的定义
  • 5.1.2 评价体系
  • 5.2 系统的实现
  • 5.2.1 系统的架构
  • 5.2.2 系统设计
  • 5.2.3 系统网络设计
  • 5.2.4 系统实现技术
  • 5.2.5 算法在系统中的应用
  • 5.3 未来工作与展望
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于数据分区的密度聚类算法应用研究
    下载Doc文档

    猜你喜欢