论文摘要
随着计算机软硬件技术的发展和应用水平的提高,人类社会产生数据和获取数据的能力迅速增长,导致我们淹没在数据的汪洋大海中却饥渴于知识。人们迫切需要一种能够自动地将数据快速转换成知识的技术和工具,于是数据挖掘技术应运而生。聚类分析是数据挖掘研究领域中一个非常活跃的研究课题,是一种搜索簇的无监督学习过程,它的应用极为广泛。目前已开发出基于划分、层次、密度、网格和模型等多种聚类方法,其中最基本也是最重要的是凝聚层次聚类法,研究表明凝聚层次聚类算法能够产生高质量的簇。本文研究凝聚层次聚类算法,做了如下主要工作:首先介绍当前主要聚类算法及存在的问题。针对聚类分析中数据类型复杂多样,在对各种类型数据间的邻近性度量研究后,提出混合类型变量邻近性度量方法,对所有类型变量一次处理。它考虑了数据的标准化、变量加权、非对称属性和属性值遗漏等情况。针对目前常用簇间邻性度量方法存在的不足,提出基于马太效应的MEICD(Merton Effect-based Inter-cluster Distance)距离作为簇间邻近性度量。实验结果表明将簇间邻近度看成簇间距离以及簇大小等因素的多元的函数,可以提高聚类质量。针对目前层次聚类算法中对簇个数的设定存在困难,特别对于包含高维对象的数据集更是如此,设计出MHCA(MEICD-based Hierarchical ClusteringAlgorithm)层次聚类算法。它利用聚类过程中得到的合并向量和描述函数,以可视化的方法,从全局的观点识别出自然簇的个数,不需要额外的外部参数。该算法能处理混合类型变量、处理任意形状和大小的簇,对具有噪声的数据集也能得到较好的结果,并且具有较好的可解释性。最后将MHCA聚类算法应用到长江电气集团的电子商务智能决策支持系统中,在原有系统中插入了客户聚类模块。基于客户的购买心理有一种从众现象,将点击流数据与后台内部数据结合起来进行智能分析,实现了对客户的聚类,对决策者和客户具有指导意义。