基于马太效应的聚类分析方法的研究

论文摘要

随着计算机软硬件技术的发展和应用水平的提高,人类社会产生数据和获取数据的能力迅速增长,导致我们淹没在数据的汪洋大海中却饥渴于知识。人们迫切需要一种能够自动地将数据快速转换成知识的技术和工具,于是数据挖掘技术应运而生。聚类分析是数据挖掘研究领域中一个非常活跃的研究课题,是一种搜索簇的无监督学习过程,它的应用极为广泛。目前已开发出基于划分、层次、密度、网格和模型等多种聚类方法,其中最基本也是最重要的是凝聚层次聚类法,研究表明凝聚层次聚类算法能够产生高质量的簇。本文研究凝聚层次聚类算法,做了如下主要工作:首先介绍当前主要聚类算法及存在的问题。针对聚类分析中数据类型复杂多样,在对各种类型数据间的邻近性度量研究后,提出混合类型变量邻近性度量方法,对所有类型变量一次处理。它考虑了数据的标准化、变量加权、非对称属性和属性值遗漏等情况。针对目前常用簇间邻性度量方法存在的不足,提出基于马太效应的MEICD（Merton Effect-based Inter-cluster Distance）距离作为簇间邻近性度量。实验结果表明将簇间邻近度看成簇间距离以及簇大小等因素的多元的函数,可以提高聚类质量。针对目前层次聚类算法中对簇个数的设定存在困难,特别对于包含高维对象的数据集更是如此,设计出MHCA（MEICD-based Hierarchical ClusteringAlgorithm）层次聚类算法。它利用聚类过程中得到的合并向量和描述函数,以可视化的方法,从全局的观点识别出自然簇的个数,不需要额外的外部参数。该算法能处理混合类型变量、处理任意形状和大小的簇,对具有噪声的数据集也能得到较好的结果,并且具有较好的可解释性。最后将MHCA聚类算法应用到长江电气集团的电子商务智能决策支持系统中,在原有系统中插入了客户聚类模块。基于客户的购买心理有一种从众现象,将点击流数据与后台内部数据结合起来进行智能分析,实现了对客户的聚类,对决策者和客户具有指导意义。

论文目录

摘要

Abstract

第一章绪论

1.1 选题背景

1.2 聚类分析研究现状

1.2.1 聚类分析的定义及应用领域

1.2.2 主要聚类方法

1.2.3 聚类分析研究的发展方向

1.3 本文的主要工作

1.4 本文组织结构

第二章数据对象间的邻近性度量

2.1 对象间的邻近度定义

2.2 数据对象的类型

2.3 数据对象间的相异度计算

2.3.1 同种类型变量间的相异度计算

2.3.2 混合类型变量间的相异度计算

2.4 数据对象间的相似度计算

2.4.1 同种类型变量间的相似度计算

2.4.2 混合类型变量间的相似度计算

2.5 邻近度计算相关问题

2.6 本章小结

第三章基于马太效应距离的聚类算法

3.1 马太效应距离的提出

3.1.1 马太效应

3.1.2 常用的簇间邻近性度量

3.2 马太效应距离的计算

3.2.1 相关定义

3.2.2 MEICD距离递推公式

3.3 MHCA层次聚类算法

3.4 聚类层次的表示

3.5 算法分析比较

3.6 本章小结

第四章 MHCA算法在电子商务智能中的应用

4.1 长江电气原有电子商务智能决策支持系统

4.1.1 电子商务智能的国内外发展现状

4.1.2 系统体系结构

4.2 客户聚类分析模块

4.2.1 聚类分析模块设计

4.2.2 数据准备

4.2.3 聚类分析模块实现

4.3 系统特点

4.4 本章小结

第五章总结与展望

5.1 总结

5.2 展望

致谢

参考文献

硕士期间发表论文

基于马太效应的聚类分析方法的研究

论文摘要

论文目录

相关论文文献

猜你喜欢