基于信息熵的聚类个数确定方法研究

基于信息熵的聚类个数确定方法研究

论文摘要

聚类分析作为一种无监督学习方法,是数据粒化以及信息压缩的一个基本工具,同时也是机器学习研究和数据挖掘应用中的一个重要内容。迄今,针对不同的应用领域,研究者已经提出了多种聚类算法,并在信息检索、图像处理、金融欺诈、医疗诊断和生物信息学等领域得到了广泛的应用。然而提出的算法大多需要在算法运行前指定聚类个数,而存大部分实际应用中,聚类个数是不可能事先知道的,而且也很难预先指定聚类个数。因此,确定聚类算法中的聚类个数在聚类分析中具有非常重要的意义。本文针对聚类分析中聚类个数确定问题进行了较为深入的研究,主要内容如下:(1)针对分类型数据,运用信息熵给出了类与类之间的相异性度量,结合划分和层次聚类的思想,提出了一种分类型数据聚类个数的确定算法,并在UCI数据集上通过实验验证了该算法的有效性。(2)针对混合型数据,运用信息熵把数值型数据和分类型数据中类与类之间的相似性度量有效地统一起来,通过扩展分类效用函数给出了一个混合型数据聚类结果的有效性评价指标,提出了一种混合型数据的聚类个数确定算法,并在UCI数据集上通过实验验证了该算法的有效性。(3)基于B/S架构技术,设计并实现了一个聚类分析数据挖掘系统。该系统的主要功能包括数据预处理、聚类个数确定、初始聚类中心选择、聚类算法和聚类结果可视化和系统管理等。系统采用了组件式开发技术,提供了友好的图形界面和开放的编程接口,保证了系统的通用性和可扩展性。本文的研究成果为分类型或混合型数据的聚类算法中类个数的选择提供参考,进一步丰富了数据挖掘中聚类分析的研究。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 论文研究背景及意义
  • 1.2 聚类分析基本步骤
  • 1.3 聚类分析中的数据类型
  • 1.4 聚类算法的主要类别
  • 1.4.1 层次聚类
  • 1.4.2 划分聚类
  • 1.5 聚类分析的应用领域
  • 1.6 聚类个数确定方法研究现状
  • 1.6.1 数值型数据聚类个数确定方法研究现状
  • 1.6.2 分类型数据聚类个数确定方法研究现状
  • 1.7 论文的研究内容与组织结构
  • 第二章 分类型数据聚类个数确定算法
  • 2.1 分类型数据初始聚类中心选取算法
  • 2.2 分类型数据聚类个数确定算法
  • 2.2.1 相异性度量
  • 2.2.2 算法描述
  • 2.3 实验结果及分析
  • 2.4 小结
  • 第三章 混合型数据聚类个数确定算法
  • 3.1 混合型数据相似性测度
  • 3.1.1 数值型数据相似性测度
  • 3.1.2 分类型数据相似性测度
  • 3.2 混合型数据聚类有效性指标
  • 3.3 混合型数据聚类个数确定算法
  • 3.3.1 改进的K-Prototypes算法
  • 3.3.2 混合型数据聚类个数确定算法
  • 3.4 实验结果及分析
  • 3.5 小结
  • 第四章 聚类分析数据挖掘系统的设计与实现
  • 4.1 常用数据挖掘系统研究现状
  • 4.2 聚类分析数据挖掘系统
  • 4.2.1 系统功能
  • 4.2.2 系统特点
  • 4.2.3 系统运行实例
  • 4.3 小结
  • 第五章 总结与展望
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 个人简况及联系方式
  • 相关论文文献

    • [1].基于聚类分析的高速铁路突发事故等级划分[J]. 内江科技 2019(12)
    • [2].基于PubMed数据库患者自我管理研究热点的共词聚类分析[J]. 中国医药导报 2020(01)
    • [3].基于聚类分析的学生成绩评定方法研究[J]. 智库时代 2020(11)
    • [4].基于因子聚类分析的儿童陪伴机器人用户细分[J]. 包装工程 2020(14)
    • [5].基于聚类分析的异常数据检测[J]. 电子技术与软件工程 2020(15)
    • [6].基于聚类算法的大用户用电模式识别研究[J]. 中国管理信息化 2017(19)
    • [7].数学学科核心素养要素析取的实证研究[J]. 数学教育学报 2016(06)
    • [8].聚类分析对学生成绩的研究[J]. 无线互联科技 2014(12)
    • [9].聚类分析和判别分析在投资中的应用[J]. 信息安全与技术 2015(06)
    • [10].基于K-聚类分析法的预防性养护路段划分[J]. 安徽建筑 2015(03)
    • [11].我国“中部崛起”战略的实证分析[J]. 智富时代 2016(S2)
    • [12].基于聚类分析的墨量预置优化方法[J]. 数码世界 2016(12)
    • [13].互联网保险产品开发研究——基于平安互联网保险产品的聚类分析[J]. 保险理论与实践 2017(03)
    • [14].高职大学生心理健康水平的聚类分析[J]. 现代职业教育 2017(07)
    • [15].环境安全评价指标体系的构建及聚类分析——以江苏省13市为例[J]. 赤子(下旬) 2017(01)
    • [16].聚类分析在方言分区上的应用——以江淮官话洪巢片为例[J]. 国际汉语学报 2017(01)
    • [17].经典划分聚类分析方法及算例[J]. 地壳构造与地壳应力文集 2016(02)
    • [18].聚类分析理论的简单应用[J]. 科学中国人 2016(03)
    • [19].2015—2018年国外机构养老研究热点的共词聚类分析[J]. 中国社会医学杂志 2019(06)
    • [20].基于主成分分析和Q型聚类分析的2018年俄罗斯世界杯足球赛各队技战术综合分析[J]. 计算机时代 2020(01)
    • [21].基于聚类分析的不均衡数据标注技术研究[J]. 计算机仿真 2020(02)
    • [22].大学生职业潜能聚类分析与实际就业状况的关联性研究[J]. 教育评论 2018(01)
    • [23].聚类分析在财政实务工作中的应用[J]. 财政科学 2018(02)
    • [24].农业生产资料价格指数的聚类分析[J]. 电脑知识与技术 2017(27)
    • [25].基于PubMed的共词聚类分析方法[J]. 电子科技 2016(02)
    • [26].聚类分析在外国语言学研究中的应用探讨[J]. 中国校外教育 2018(07)
    • [27].基于聚类分析法的机场出租车问题研究[J]. 科学技术创新 2020(35)
    • [28].基于因子聚类分析的安徽服务业竞争力评价[J]. 中国市场 2013(02)
    • [29].教学测评数据的对应聚类分析法研究[J]. 科技信息 2012(34)
    • [30].近红外光谱和聚类分析法无损快速鉴别小儿抽风散[J]. 光谱学与光谱分析 2008(02)

    标签:;  ;  ;  ;  ;  

    基于信息熵的聚类个数确定方法研究
    下载Doc文档

    猜你喜欢