基于信息相异度和不规则网格的混合属性聚类算法研究

论文摘要

基于混合属性的聚类分析算法已经成为当前的研究热点，它可以广泛应用于生物信息学、气象信息分析和股票数据分析等领域。混合属性聚类算法中混合属性对象间的相异度度量直接影响聚类质量，且网格的划分直接影响混合属性数据流的聚类精度。针对上述问题，本文重点研究基于信息相异度的静态混合属性聚类算法和基于不规则网格划分的混合属性数据流聚类算法。首先，对聚类算法的要求进行了阐述，并对当前混合属性聚类算法所采用的技术进行了分析，这些算法主要包括基于层次的聚类算法、基于网格和密度的聚类算法、针对混合属性数据的聚类算法。此外，还分析了最近公布的聚类算法。其次，提出了一种基于信息相异度的混合属性聚类算法。基于Kolmogorov信息论，推导出了两个混合属性对象间信息相异度的一般公式。在聚类过程中，先采用最大相异度和的方法选取初始聚类中心，然后将每个对象分配给与其相异度最小的聚类中心，并计算准则函数，更新簇的中心并反复迭代直到准则函数收敛或者达到预先设定的迭代次数时停止。再次，提出一种基于不规则网格的混合属性数据流聚类算法。算法由在线层和离线层两部分组成。在线部分，算法根据数据记录中连续属性的值和网格半径动态的划分网格，以增量的存储新的数据记录，同时更新网格特征向量。离线部分主要处理在线过程存储的网格，以网格中心点为顶点、网格中心点间的距离为边构建一个无向图，得到该无向图的最小生成树并切断最小生成树的k-1条最大边，进而获得k个簇。最后，通过实验对提出的两种混合属性聚类算法进行了有效性和可行性的验证，并对实验结果进行了分析。

论文目录

摘要

Abstract

第1章绪论

1.1 选题的依据及意义

1.2 混合属性聚类的国内外研究现状

1.3 混合属性聚类存在的问题

1.4 课题的主要研究内容和组织结构

1.4.1 本文主要研究内容

1.4.2 本文的结构安排

第2章相关概念及技术

2.1 聚类算法的要求

2.2 聚类算法分析

2.2.1 基于层次的聚类算法

2.2.2 基于密度和网格的聚类算法

2.2.3 基于混合属性的聚类算法

2.2.4 最新公布的聚类算法

2.3 本章小结

第3章基于信息相异度的混合属性聚类算法

3.1 引言

3.2 问题描述和定义

3.3 基于信息相异度的混合属性聚类算法

3.3.1 混合属性对象 Kolmogorov 复杂性近似计算

3.3.2 初始聚类中心的选择

3.3.3 HIDK-means 算法框架

3.4 算法分析

3.5 本章小结

第4章基于不规则网格的混合属性数据流聚类算法

4.1 引言

4.2 问题描述和定义

4.3 基于不规则网格的混合属性数据流聚类算法

4.3.1 不规则网格划分策略

4.3.2 HIG-Stream 算法框架

4.4 算法分析

4.5 本章小结

第5章算法实现及实验分析

5.1 HIDK-means 算法的实现与实验结果分析

5.1.1 实验环境及数据集

5.1.2 聚类质量的比较

5.1.3 参数敏感性分析

5.2 HIG-Stream 算法的实现与实验结果分析

5.2.1 实验环境及数据集

5.2.2 聚类质量的比较

5.2.3 有效性分析

5.3 本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

作者简介

基于信息相异度和不规则网格的混合属性聚类算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢