论文摘要
基于混合属性的聚类分析算法已经成为当前的研究热点,它可以广泛应用于生物信息学、气象信息分析和股票数据分析等领域。混合属性聚类算法中混合属性对象间的相异度度量直接影响聚类质量,且网格的划分直接影响混合属性数据流的聚类精度。针对上述问题,本文重点研究基于信息相异度的静态混合属性聚类算法和基于不规则网格划分的混合属性数据流聚类算法。首先,对聚类算法的要求进行了阐述,并对当前混合属性聚类算法所采用的技术进行了分析,这些算法主要包括基于层次的聚类算法、基于网格和密度的聚类算法、针对混合属性数据的聚类算法。此外,还分析了最近公布的聚类算法。其次,提出了一种基于信息相异度的混合属性聚类算法。基于Kolmogorov信息论,推导出了两个混合属性对象间信息相异度的一般公式。在聚类过程中,先采用最大相异度和的方法选取初始聚类中心,然后将每个对象分配给与其相异度最小的聚类中心,并计算准则函数,更新簇的中心并反复迭代直到准则函数收敛或者达到预先设定的迭代次数时停止。再次,提出一种基于不规则网格的混合属性数据流聚类算法。算法由在线层和离线层两部分组成。在线部分,算法根据数据记录中连续属性的值和网格半径动态的划分网格,以增量的存储新的数据记录,同时更新网格特征向量。离线部分主要处理在线过程存储的网格,以网格中心点为顶点、网格中心点间的距离为边构建一个无向图,得到该无向图的最小生成树并切断最小生成树的k-1条最大边,进而获得k个簇。最后,通过实验对提出的两种混合属性聚类算法进行了有效性和可行性的验证,并对实验结果进行了分析。
论文目录
摘要Abstract第1章 绪论1.1 选题的依据及意义1.2 混合属性聚类的国内外研究现状1.3 混合属性聚类存在的问题1.4 课题的主要研究内容和组织结构1.4.1 本文主要研究内容1.4.2 本文的结构安排第2章 相关概念及技术2.1 聚类算法的要求2.2 聚类算法分析2.2.1 基于层次的聚类算法2.2.2 基于密度和网格的聚类算法2.2.3 基于混合属性的聚类算法2.2.4 最新公布的聚类算法2.3 本章小结第3章 基于信息相异度的混合属性聚类算法3.1 引言3.2 问题描述和定义3.3 基于信息相异度的混合属性聚类算法3.3.1 混合属性对象 Kolmogorov 复杂性近似计算3.3.2 初始聚类中心的选择3.3.3 HIDK-means 算法框架3.4 算法分析3.5 本章小结第4章 基于不规则网格的混合属性数据流聚类算法4.1 引言4.2 问题描述和定义4.3 基于不规则网格的混合属性数据流聚类算法4.3.1 不规则网格划分策略4.3.2 HIG-Stream 算法框架4.4 算法分析4.5 本章小结第5章 算法实现及实验分析5.1 HIDK-means 算法的实现与实验结果分析5.1.1 实验环境及数据集5.1.2 聚类质量的比较5.1.3 参数敏感性分析5.2 HIG-Stream 算法的实现与实验结果分析5.2.1 实验环境及数据集5.2.2 聚类质量的比较5.2.3 有效性分析5.3 本章小结结论参考文献攻读硕士学位期间承担的科研任务与主要成果致谢作者简介
相关论文文献
标签:数据流论文; 聚类论文; 混合属性论文; 信息相异度论文; 不规则网格论文;