论文摘要
聚类是数据挖掘领域中的一种常用方法,它是通过数据之间的相似程度,把数据集分割成若干簇。传统的聚类没有利用到数据的监督信息,所以被当作是一种无监督的机器学习方法。半监督聚类就是利用数据的监督信息来帮助提升无监督聚类的性能。其中,数据的监督信息包括数据的类标记信息和数据间的成对约束信息(must-link约束和cannot-link约束)。半监督聚类是在无监督聚类中加入监督信息,利用这些监督信息来辅助聚类的学习。如何有效利用数据的监督信息来提升聚类学习的性能,是现今数据挖掘中的一个重要问题。目前,已有很多半监督聚类的有效方法。本文从遗传算法的角度研究半监督聚类方法,主要从两个方面出发,一方面研究在半监督聚类中利用成对约束信息的新方法,一方面研究如何改进现有的基于遗传算法的半监督聚类算法,使遗传算法更好地用于半监督聚类中。本文的主要工作及创新点包括:1、提出了近邻度这个新的概念。每个样本都有一个近邻度,近邻度大,说明该样本附近的样本分布比较稀疏,样本之间的距离比较远;反之,近邻度小,说明该样本附近的样本分布比较密集,样本之间的距离比较近。2、提出了一种在半监督聚类中利用成对约束信息的新方法。凝聚层次聚类(AHC)是层次聚类的一种,它采用自底向上的方式,把原子簇一步步合并起来。但是,AHC算法并没有利用到数据的监督信息,是一种无监督的聚类过程。本文把成对约束信息引入到AHC算法中,利用样本的近邻度,提出了基于成对约束的半监督凝聚层次聚类算法(PS-AHC). PS-AHC算法利用成对约束来重新调整聚类簇之间的距离,使聚类簇之间的距离更真实,最终影响聚类的结果。实验结果说明了PS-AHC算法可以有效提升聚类性能。3、遗传算法是一种自适应全局优化概率搜索算法,是解决搜索问题的一种通用算法。现有的一种基于遗传算法的半监督聚类算法(LG-SSC)只利用了数据的类标记信息,并未利用数据的成对约束信息。本文提出了基于遗传算法的改进半监督聚类算法(PLG-SSC),该算法同时利用了数据的类标记信息和成对约束信息,充分利用了数据的监督信息。在该算法中提出了PFDS样本分配方法,该方法充分减少了成对约束的违反个数。实验结果表明PLG-SSC算法能进一步提高聚类的准确率。
论文目录
相关论文文献
- [1].基于约束信息的微博用户划分[J]. 计算机与数字工程 2019(11)
- [2].基于凸壳的约束信息扩展方法[J]. 计算机工程与应用 2014(04)
- [3].改进的约束变密度界面反演策略及其应用[J]. 地球物理学报 2020(10)
- [4].过程约束信息在软件静态测试中的应用[J]. 计算机辅助设计与图形学学报 2011(03)
- [5].基于约束信息的并行k-means算法[J]. 东南大学学报(自然科学版) 2011(03)
- [6].DISP相关QoS约束信息跨层信道抢占算法[J]. 科技通报 2014(10)
- [7].基于非凸约束信息的传感器网络节点定位方法[J]. 计算机工程 2008(11)
- [8].历史轨道约束信息下的区域站GPS卫星轨道确定[J]. 大地测量与地球动力学 2009(05)
- [9].识别概念的允许变换说质疑[J]. 应用概率统计 2011(06)
- [10].提高静态缺陷检测精度方法[J]. 计算机辅助设计与图形学学报 2010(11)
- [11].混合约束的软限制近邻传播半监督聚类算法[J]. 烟台大学学报(自然科学与工程版) 2011(04)
- [12].复杂产品拆卸层次模型与构建方法研究[J]. 机电工程 2020(03)
- [13].强化学习在中职招生系统中的应用[J]. 计算机应用与软件 2013(04)
- [14].基于成对约束的主动半监督文本聚类[J]. 计算机工程 2011(13)
- [15].协同感知的框架研究[J]. 福建电脑 2010(04)
- [16].协同设计中约束信息的可视化映射研究[J]. 合肥工业大学学报(自然科学版) 2009(03)
- [17].基于约束投影的近邻传播聚类算法[J]. 计算机工程与科学 2014(03)
- [18].带有先验约束信息边坡变形监测滤波算法[J]. 湖南大学学报(自然科学版) 2011(02)
- [19].基于强化学习的业务流程中的柔性约束研究[J]. 计算机科学 2011(03)
- [20].交通是平的[J]. 中国公路 2017(10)
- [21].一种基于数据相关性的半监督模糊聚类集成方法[J]. 计算机科学 2015(06)
- [22].一种混合约束的半监督聚类算法[J]. 模式识别与人工智能 2011(03)
- [23].滑坡监测的自适应约束抗差滤波算法研究[J]. 大地测量与地球动力学 2011(06)
- [24].基于工艺约束矩阵的加工序列优化[J]. 中国机械工程 2009(09)
- [25].一种主动式的半监督最近邻学习方法[J]. 山东大学学报(理学版) 2011(05)
- [26].基于社会管理视角的信息异化控制机制研究[J]. 情报理论与实践 2013(11)
- [27].融合通道信息注意力网络的叶片病害识别[J]. 计算机工程与应用 2020(23)
- [28].基于Web Services的关系型数据服务动态发布方法[J]. 计算机与现代化 2014(12)
- [29].带有等式状态约束的多传感器数据融合算法[J]. 上海交通大学学报 2014(07)
- [30].基于谱图和成对约束的主动半监督聚类算法[J]. 控制与决策 2013(06)