聚类中的特征学习研究

聚类中的特征学习研究

论文摘要

人类要认识世界就必须区分不同的事物并认识事物间的相似性,聚类是按照事物间的相似进行的一种无监督分类,是在对数据不作任何假设的条件下进行分析的一种工具,聚类已广泛应用于各种工程和科学领域。特征的选择和特征权值的选定对聚类效果有着较大的影响,而现有特征选择和特征学习又主要体现在有监督学习中,因此,本文针对特征学习聚类展开了研究,主要工作如下:(1)研究分析了数据挖掘中聚类算法的现状及存在问题,重点阐明划分聚类算法以及特征学习方法。(2)针对划分聚类算法对初始聚类中心选取敏感,并对特征权值的学习和聚类质量有着较大的影响,因此,提出一最大距离和初始聚类中心选取法(新加入的初始中心与已选入的所有初始中心距离和最大)。该方法能较好地将初始聚类中心分在不同的聚类中,并能与划分聚类较能好地结合。(3)为体现数据各特征对类的分离贡献的不同,研究并分析了基于Relief算法的一些特征评价函数及其存在的问题,为本文特征评价函数的构造奠定的基础和切入点。此特征评价函数在算法复杂度和类大小相差悬殊的情形下,对特征的评价均有较好表现。(4)基于新的特征评价函数,运用于特征学习聚类中,以解决特征权值取值不当对聚类产生的负面影响。并将特征学习聚类拓展到具有类属性数据聚类中。通过实验,与传统聚类进行对比、分析,证明特征学习聚类算法在提高聚类精度和特征学习上是可行和有效的。

论文目录

  • 摘要
  • Abstract
  • 致谢
  • 第一章 绪论
  • 1.1选题背景与本文研究意义
  • 1.2 数据挖掘概述
  • 1.2.1 数据挖掘的背景知识
  • 1.2.2 数据挖掘的分类
  • 1.3 聚类分析概述
  • 1.3.1 聚类分析的背景知识
  • 1.3.2 聚类算法分类
  • 1.3.3 聚类算法研究面临的挑战
  • 1.4 特征的选择、提取与学习
  • 1.5 本文的研究内容与组织结构
  • 第二章 传统聚类算法及特征学习的分析与研究
  • 2.1 K-means算法
  • 2.1.1 k-means工作原理
  • 2.1.2 k-means算法步骤
  • 2.1.3 k-means算法性能分析
  • 2.2 模糊 C均值算法FCM
  • 2.2.1 FCM算法的工作原理
  • 2.2.2 FCM算法性能分析
  • 2.3 特征选择和分类学习方法
  • 2.3.1 次优搜索法
  • 2.3.2 贝叶斯信念网络
  • 2.3.3 神经网络后传算法
  • 2.4 本章小结
  • 第三章 基于RELIEF算法的特征评价方法研究
  • 3.1 Relief算法原理
  • 3.2 基于 Relief的特征评价及其存在的不足
  • 3.3 特征评价函数(FCF)的构造
  • 3.3.1 具有数值型特征权值计算
  • 3.3.2 带权的相似度计算
  • 3.3.3 具有类属性特征权值计算
  • 3.4 本章小结
  • 第四章 特征学习聚类算法(FLC)及其特点
  • 4.1 基于FCF的特征学习聚类(FLC)
  • 4.2 FLC算法的特点
  • 4.3 初始聚类中心的选取
  • 4.4 实验结果与分析
  • 4.4.1 实验一:数字型特征的FLC聚类
  • 4.4.2 实验二: FLC与k-means关于目标函数值的比较
  • 4.4.3 实验三:具有类属性特征的FLC聚类
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 总结全文
  • 5.2 存在不足和研究展望
  • 参考文献
  • 附录 攻读硕士学位期间撰写的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    聚类中的特征学习研究
    下载Doc文档

    猜你喜欢