聚类分析算法研究

聚类分析算法研究

论文题目: 聚类分析算法研究

论文类型: 硕士论文

论文专业: 软件工程

作者: 戴涛

导师: 李春平

关键词: 数据挖掘,聚类,概率聚类算法,聚类个数,个体行为数据,可视化

文献来源: 清华大学

发表年度: 2005

论文摘要: 聚类分析技术就是将数据区分为自然的群体,并给出每个群体特征描述的一种数据挖掘方法,是数据挖掘和知识发现的一种基本方法。在进行基于概率的聚类分析的时候,往往事先假设已知数据将分为K组,然后通过概率聚类算法进行分组,使得一组中的成员彼此相似,而与其他组的成员尽可能的不同。但是,如何在给定的数据集上得到最佳聚类个数?概率聚类算法本身并没有回答这个问题。我们首先分析了通用的自动确定概率聚类个数的方法,然后针对蒙特卡罗交叉验证算法不能解决后验概率分散的问题,提出一种改进的蒙特卡罗交叉验证算法(iMCCV)。进而,我们提出了一种解决确定概率聚类个数的混合途径方法,这种方法结合iMCCV算法和平行坐标可视化技术去确定聚类个数。一般来说,数据挖掘算法中涉及数据可以归为三种基本的数据类型:人口统计学数据、个体行为数据、心理或态度数据。而在对未来行为的预测能力上,个体行为数据通常比其他类型的数据效果更好。个体的概念非常广泛,人、动物、有机物、组织、自然现象和机械系统等都是个体。个体行为数据的例子很多,如超市数据,信用卡数据,电话数据都是交易数据,甚至可以把整个的商业领域数据都可以视为这种类型。这类数据的共同特征是每个“个体”有多个观察值,而且个体之间的观察值的个数不同。但是,传统的基于距离或相似度的聚类算法一般都基于“特征矢量”的方法,即把观察数据转化为固定维度的矢量数据来进行处理。这种方法并不适宜用来处理个体数据。如果我们使用传统方法来处理个体数据,往往由于进行了数据矢量转化操作而造成信息丢失,最终可能会导致聚类结果的不准确。所以我们应该对个体数据采取不同的聚类技术而提高聚类结果的准确性。我们根据数据特点和应用需求,提出了有效的挖掘算法的:个体行为数据的模糊高斯混合模型算法和双重高斯混合模型算法。其中模糊高斯混合模型算法结合混合模型算法和模糊算法的思想;而双重高斯混合模型算法主要针对拨号数据的“多峰值”现象。在理论研究的基础上,我们结合平行坐标可视化技术设计并实现了一个可视化聚类挖掘原型系统,该系统提供友好的图形用户界面和开放的编程接口。

论文目录:

摘要

Abstract

第一章 引言

1.1 研究动机

1.2 研究成果

1.3 论文导读

第二章 聚类挖掘综述

2.1 聚类分析技术

2.1.1 聚类阶段

2.1.2 符号定义

2.1.3 数据表示

2.1.4 相似度定义

2.1.4.1 定义距离的方法

2.1.4.2 定义相似度的方法

2.1.5 聚类算法分类

2.2 层次算法

2.3 划分算法

2.4 概率聚类算法

2.4.1 混合模型

2.4.2 EM算法

2.4.2.1 极大似然估计

2.4.2.2 基本EM算法思想

2.4.2.3 高斯混合模型中的EM算法

2.5 模糊聚类算法

2.6 基于密度算法

2.6.1 基于密度的连通方法

2.6.2 密度函数方法

2.7 基于栅格算法

2.8 基于搜索算法

2.9 范畴数据聚类算法

2.10 高维数据聚类算法

2.11 海量数据聚类算法

2.11.1 扩展划分算法

2.11.2 扩展层次算法

2.11.3 扩展基于概率的算法

2.12 隐私保密挖掘聚类算法

2.13 本章小结

第三章 概率聚类算法选择聚类个数的确定

3.1 介绍

3.2 确定聚类个数的常用方法

3.3 确定概率聚类个数的混合途径方法

3.3.1 改进的蒙特卡罗交叉验证算法(iMCCV)

3.3.2 结合平行坐标可视化技术确定K值

3.4 实验情况

3.4.1 实验结果

3.4.2 实验分析

3.4.3 结合平行坐标确定聚类个数

3.5 本章小结

第四章 面向领域的个体行为数据聚类

4.1 介绍

4.2 符号定义

4.3 模糊高斯混合模型算法(FuzzyGMM)

4.3.1 模糊高斯混合模型推导

4.3.2 模糊高斯混合模型的EM算法

4.3.3 算法分析

4.3.4 实验

4.3.4.1 模拟数据实验

4.3.4.2 拨号上网数据实验

4.4 双重高斯混合模型算法(DualGMM)

4.4.1 引言

4.4.2 双重高斯混合模型推导

4.4.3 双重高斯混合模型的EM算法

4.4.4 算法分析

4.4.5 模拟数据实验

4.4.5.1 准确度

4.4.5.2 可扩展性

4.5 本章小结

第五章 聚类分析原型系统的实现

5.1 设计目标

5.2 原型系统结构设计

5.3 本章小结

结论

参考文献

致谢及声明

个人简历、在学期间的研究成果及发表的论文

发布时间: 2005-11-16

参考文献

  • [1].一种改进的基于层次的聚类和异常检测算法及其在数据挖掘平台上的应用[D]. 吴启南.新疆大学2002
  • [2].基于数据挖掘的零售客户细分模型的应用研究[D]. 李娜.四川师范大学2008
  • [3].基于数据挖掘的教育分析系统的研究与实现[D]. 崔仁桀.北京邮电大学2016
  • [4].有限高斯混合模型聚类算法的研究[D]. 古俊哲.兰州商学院2014
  • [5].医学图像的高斯混合模型及聚类研究[D]. 张树伟.江苏大学2010
  • [6].基于数据挖掘在社交网络中热点话题的研究[D]. 王军强.浙江理工大学2016
  • [7].基于高斯混合模型的运动目标检测算法研究和应用[D]. 肖武.湖南大学2014
  • [8].基于深度学习的人脸检测和识别方法研究[D]. 刘婧月.电子科技大学2018
  • [9].基于高斯混合模型马尔科夫随机场与模糊聚类的人脑MRI分割方法研究[D]. 梁恺彬.昆明理工大学2017
  • [10].一种新的改进聚类精确度和稳定性的融合技术[D]. Happe Clement Deus(杜思).中南大学2011

相关论文

  • [1].聚类分析数据挖掘方法的研究与应用[D]. 陆云.安徽大学2007
  • [2].聚类算法的研究及其应用[D]. 刘鑫朝.长沙理工大学2006
  • [3].聚类算法的研究[D]. 李东琦.西南交通大学2007
  • [4].模糊聚类分析技术及其应用研究[D]. 叶海军.合肥工业大学2006
  • [5].数据挖掘中聚类分析的研究[D]. 郭军华.武汉理工大学2003

标签:;  ;  ;  ;  ;  ;  

聚类分析算法研究
下载Doc文档

猜你喜欢