基于高维空间的聚类技术研究

基于高维空间的聚类技术研究

论文题目: 基于高维空间的聚类技术研究

论文类型: 硕士论文

论文专业: 计算机应用

作者: 和亚丽

导师: 陈立潮

关键词: 数据挖掘,高维聚类,映射聚类,离群点检测,聚类结果表示,粗集理论

文献来源: 中北大学

发表年度: 2005

论文摘要: 随着计算机应用的普及,信息系统产生的数据量日益增大,迫切需要高效的数据挖掘工具,从大量原始数据中寻找有价值的知识模式。聚类分析是数据挖掘的重要工具之一。如何正确处理维度达到数百、数千的数据集合,如何从高维数据集中寻找潜在的、自然存在的聚类簇,这是当前聚类分析研究的热点。本文针对聚类分析的热点和难点问题----高维聚类展开研究,目的是寻求有效的高维聚类算法,以及有效的高维数据离群点发现和聚类结果表达等技术。本文研究了高维聚类分析的关键技术,主要工作有:1、针对高维数据空间下聚类簇的分布特点,改进了一种基于子空间的映射聚类算法。本文应用柏努利分布表示二元数据的分布特征,把基于有限混合柏努利分布模型与EM(Expectation-Maximization)算法相结合的高维二元数据映射聚类方法,一方面发现各种子空间下的聚类簇,一方面为每个簇指定相应的属性子集,实现了不同子空间下聚类簇的挖掘。2、从映射聚类算法出发,设计了一种高维空间离群点发现的算法。首先,运用一种映射聚类的算法寻找数据点相对密集的子空间。为了尽快找到这些数据簇及其相应的子空间,可以对数据进行二元处理,即把全部数据集转化为二元数据,然后运用二元数据映射聚类方法找到映射簇及相关联的属性集合;第二,根据属性熵的定义,对每个属性集合的每一属性判别其离散程度;第三,在离散程度较大的属性集合中确定离群点;第四,进行簇间属性集合的交叉分析,发现跨子空间的离群点。3、仔细研究基于粗集理论的高维聚类结果表达方法。认为聚类簇必须以有效的方式加以表达,相对完整地传达聚类运算的结果,以利于人工交互,完成知识发现的后续操作。因此,聚类结果的可表达性、可解释性是聚类算法必须考虑的关键技术。本文运用粗集(rough set)理论,引入属性空间上的粗糙集理论,考虑数据在对象空间和属性空间的不同特性,使聚类结果特征从对象空间和属性空间两个角度得到了综合反映,并以规则的形式表示聚类知识,既可全面表示数据聚类结构,也可实现聚类增量计算。

论文目录:

1 、 高维聚类技术综述

1.1 数据库知识发现

1.1.1 数据库知识发现的产生与发展

1.1.2 KDD的一般机理和理论基础

1.1.3 KDD系统的基本框架

1.1.4 KDD的主要任务

1.2 聚类分析

1.2.1 聚类问题的描述及主要方法

1.2.2 高维聚类问题..

1.2.3 高维聚类的关键技术

2 、 高维二元数据的映射聚类算法

2.1 引言

2.2 相关工作

2.3 二元数据

2.4 映射聚类的模型

2.4.1 柏努利分布(Bernoulli distribution)

2.4.2 有限混合柏努利分布

2.4.3 似然函数

2.4.4 EM算法

2.4.5 柏努利混合模型的EM算法

2.4.6 基于混合模型的映射聚类思想

2.5 映射聚类算法

2.6 试验结果

2.7 结论

3 、 高维数据空间的离群点检测方法研究

3.1 概述

3.2 高维空间中的离群点发现

3.3 子空间离群点发现算法综述

3.4 映射离群点发现的思考

3.5 映射离群点发现算法的设计

3.5.1 映射聚类算法

3.5.2 关于熵的属性选择

3.5.3 离散属性中离群点的确定

3.5.4 簇外属性检测

3.6 算法描述及分析

3.7 结论

4 、 高维数据聚类结果的表示

4.1 聚类结果表述方式概述

4.1.1 数据可视化

4.1.2 表达方式

4.2 基于粗集理论的知识表示

4.2.1 粗糙集基础理论

4.2.2 属性空间上的routh集理论

4.3 基于粗糙理论的聚类结果表达

4.3.1 一般聚类知识的表达

4.3.2 高维二元映射聚类结果的粗集表示

4.4 结论

5 、 总结与展望

5.1 本文完成的主要工作与贡献

5.2 对今后工作的展望

参考文献

攻读硕士期间发表的论文及所取得的研究成果

致谢

发布时间: 2005-05-09

参考文献

  • [1].数据挖掘中的离群点检测算法研究[D]. 胡婷婷.厦门大学2014
  • [2].高维数据空间中离群点检测方法的研究[D]. 李威.吉林大学2005
  • [3].一种基于角度的离群点检测算法的改进[D]. 徐一文.西安电子科技大学2015
  • [4].基于R语言的离群点检测算法研究以及在侦测欺诈交易中的应用[D]. 曲建方.西安电子科技大学2015
  • [5].数据挖掘离群点检测算法及其在电力设备故障检测中的应用[D]. 冯玉伟.北京邮电大学2017
  • [6].基于条件渐增总熵和全局邻域的局部离群点挖掘算法[D]. 孙影.燕山大学2017
  • [7].基于密度的局部离群点挖掘及在入侵检测中应用研究[D]. 秦浩.大连海事大学2016
  • [8].基于多重聚类的局部离群点检测算法研究[D]. 刘海波.重庆大学2013
  • [9].基于属性权重的局部离群点挖掘算法研究[D]. 马良斋.兰州大学2010
  • [10].基于偏离特征的离群点挖掘方法研究[D]. 尹新亮.哈尔滨工程大学2017

相关论文

  • [1].在聚类中关于噪音与高维问题的研究[D]. 周霆.江南大学2006
  • [2].聚类算法及其应用研究[D]. 何虎翼.上海交通大学2007
  • [3].基于网格密度和空间划分树的聚类算法研究[D]. 曾东海.厦门大学2006
  • [4].面向高维数据的变密度空间聚类研究[D]. 王东波.合肥工业大学2007
  • [5].面向高维数据的子空间聚类算法研究[D]. 甘杨兰.合肥工业大学2007
  • [6].空间聚类算法的研究[D]. 陶亮.合肥工业大学2007
  • [7].高维海量数据聚类算法研究[D]. 王永卿.广西大学2007
  • [8].改进的高维空间数据聚类算法及其在农业信息化中的应用[D]. 刘冬寒.吉林大学2005
  • [9].聚类算法研究[D]. 孟增辉.河北大学2005
  • [10].空间数据挖掘的聚类方法与应用[D]. 欧阳怡彪.电子科技大学2006

标签:;  ;  ;  ;  ;  ;  

基于高维空间的聚类技术研究
下载Doc文档

猜你喜欢