基于商空间粒度的覆盖聚类算法

基于商空间粒度的覆盖聚类算法

论文摘要

随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效、方便地实现数据的录入、查询、统计等功能,但是无法发现数据中存在的各种关系和规则,更无法根据现有的数据预测未来的发展趋势。而数据聚类分析正是解决这一问题的有效途径,它是数据挖掘的重要组成部分,用于发现在数据库中未知的对象类,为数据挖掘提供有力的支持,它是近年来广为研究的问题之一。聚类分析技术就是将数据区分为自然的群体,并给出每个群体特征描述的一种数据挖掘方法。但是传统的聚类算法对高维大规模数据的处理效率不高,我们研究的工作是希望对大规模,高维的数据库找到一种高效的聚类方法,张铃教授提出的交叉覆盖算法可以有效地处理大规模数据的聚类问题,因此我们提出基于覆盖算法的聚类。同时我们注意到可以用粒度描述聚类的粗细,因此本文在聚类中引入粒度的概念.本文首先从基本概念出发,阐明了数据挖掘技术及其中的聚类分析技术的主要概念和主要内容,之后对聚类分析算法的相关部分(如聚类分析中的数据表示、距离度量和常用算法)进行了深入的分析和讨论。接着介绍了覆盖算法的基本思想,给出了商空间粒度的基本原理,提出了基于商空间粒度的覆盖聚类算法,并通过实验验证了该算法的有效性和可行性,适合处理高维大规模的数据样本。进而,针对文本聚类中由于缺少类信息从而很难直接应用有监督的特征选择方法这样的局限,提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验证明了算法的可行性。论文所做的工作如下:(1)提出了一种可以有效处理大规模高维数据的覆盖聚类算法,此方法在研究传统的聚类算法基础上,扩展了在数据分类上得到良好应用的交叉覆盖算法,提出了改进的覆盖聚类算法,使其能够处理数据的自动聚类问题。(2)引入了粒度的概念,选择不同粒度计算时,可以直观地从不同角度理解样本类内和类间的物理意义,对问题有实际的指导意义。(3)文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,本文提出了一种基于类信息的特征选择算法,很好的利用了无监督学习方法中的信息增益特征选择法。本文在粒度聚类方面完成了一定的工作,但还存在一些不足,今后可以在以下方面继续研究:(1)算法的有效性(2)算法的伸缩性(3)算法的系统交互性

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 数据挖掘概述
  • 1.1.1 引言
  • 1.1.2 数据挖掘的定义
  • 1.1.3 数据挖掘的一般过程
  • 1.2 聚类分析技术
  • 1.2.1 什么是聚类
  • 1.2.2 聚类分析的应用
  • 1.2.3 聚类分析的研究现状
  • 1.3 本课题的主要研究内容
  • 1.3.1 主要工作
  • 1.3.2 论文的组织
  • 第二章 聚类分析算法
  • 2.1 聚类分析的进一步描述
  • 2.1.1 几种聚类定义
  • 2.1.2 聚类分析中的数据类型
  • 2.2 聚类分析中的数据表示
  • 2.3 聚类分析中距离度量
  • 2.3.1 数值型变量的距离度量
  • 2.3.2 二值变量的距离度量
  • 2.4 聚类分析算法分类
  • 2.4.1 划分方法(partitioning method)
  • 2.4.2 层次方法(hierarchical method)
  • 2.4.3 基于密度的方法(density-based method)
  • 2.4.4 基于网格的方法(grid-based method)
  • 2.4.5 基于模型的方法(model-based method)
  • 2.4.6 高维数据聚类算法
  • 2.4.7 海量数据聚类算法
  • 2.5 常用的聚类分析方法比较
  • 2.5.1 聚类算法的典型要求
  • 2.5.2 常用聚类算法的比较分析
  • 第三章 覆盖算法和商空间粒度原理
  • 3.1 覆盖算法的介绍
  • 3.1.1 M-P神经元的几何意义
  • 3.1.2 交叉覆盖算法
  • 3.2 商空间粒度原理简介
  • 3.2.1 商空间粒度的描述
  • 3.2.2 粒度世界的数学模型
  • 3.2.3 粒度世界性质的保持性
  • 第四章 商空间粒度覆盖聚类算法
  • 4.1 基于商空间粒度的覆盖聚类算法
  • 4.1.1 聚类中的粒度原理
  • 4.1.2 粒度的选择
  • 4.1.3 基于商空间粒度的覆盖算法描述
  • 4.2 实验和结果分析
  • 4.2.1 评价标准
  • 4.2.2 实验数据
  • 4.3 结论
  • 第五章 文本聚类中特征选择算法的改进
  • 5.1 文本聚类预处理
  • 5.1.1 文本的表示
  • 5.1.2 去除停用词和稀有词
  • 5.1.3 文本聚类中特征选择存在的问题
  • 5.2 基于IG和 DBSCAN的文本聚类特征选择算法
  • 5.2.1 几种常见的特征选择方法
  • 5.2.2 算法描述
  • 5.2.3 实验和分析
  • 5.3 结论
  • 第六章 总结与展望
  • 6.1 研究成果
  • 6.2 对算法的展望
  • 参考文献
  • 附录A 图索引
  • 附录B 表索引
  • 导师作者简介
  • 攻读硕士学位期间发表的论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于商空间粒度的覆盖聚类算法
    下载Doc文档

    猜你喜欢