无监督学习中聚类和阈值分割新方法研究

无监督学习中聚类和阈值分割新方法研究

论文摘要

聚类分析和图像阈值分割是重要的无监督学习方法,它们之间存在着紧密的联系,近年来得到了广泛的研究。本文针对当前聚类分析和阈值分割研究中存在的问题,进行了较为深入和广泛的研究,主要内容包括:(1)提出了一种基于混合距离学习的模糊聚类新方法,从而实现了在模糊聚类的同时为数据集选择合适的距离度量。在本方法中,数据集未知距离的度量被表示为若干已知距离的线性组合,通过基于迭代重分配策略的无监督学习算法得到适合于数据集的距离分量权重。为了保证迭代算法收敛,算法中引入了Steffensen迭代法来改进簇中心的计算公式。(2)在对高维文本数据进行聚类分析时,整个数据集采用单一的特征权重向量无法与数据集的结构特点相吻合。为了解决这一问题,给各个簇赋予不同的特征权重向量,来表示聚类过程中各维特征对此类别贡献的大小。将特征加权距离与软子空间技术相结合,提出了一种目标函数中带两个模糊矩阵的软子空间聚类新方法。首先基于加权范数理论,提出了新的特征加权距离计算方法;接着,通过向经典FCM的目标函数中引入模糊特征加权矩阵,得到了新的模糊聚类学习准则。此外,就算法的全局收敛性给出严格的理论证明。最后,基于人工数据集和真实数据集对算法的相关性质进行研究。(3)由于相位同步问题的存在,传统的单分类器不适用于周期时间序列的异常检测。为了解决此问题,提出了一种新的单分类器PS-WS1M-OCC。PS-WSIM-OCC的训练过程包含两个步骤。首先执行移相加权球面单簇聚类算法PS-WS1M得到一系列异常值,然后根据异常值的分布来自动确定阈值。在PS-WSIM-OCC中,通过向PS-WS1M加入循环移位这一步骤,有效的解决了时间序列分析中的同步问题;此外,在自动选择阈值时使用了新的目标准则,从而使PS-WS1M-OCC对噪声有着较高的鲁棒性。进一步的,还将移相加权球面单簇聚类算法PS-WS1M和分裂式层次聚类技术相结合,提出了一种自动确定聚类数目的新方法。相关参数又可以用于控制聚类的粒度,这大大提高了算法的灵活性。(4) Parzen窗密度估计是一种重要的无参数密度估计方法。最近,Wang S等将Parzen窗密度估计用于图像的阈值分割,提出了基于Parzen窗技术的图像阈值分割算法PWT。它具有分割效果好,适应面广等优点。但是此方法计算开销大、速度慢。针对这一问题,提出了基于加权Parzen窗的阈值分割新算法WPWT。通过构造新的误差评价准则,采用层次聚类技术进行数据集的精简和参考像素点权重的计算,从而有效的减少了参与密度估计的像素点数量。通过与PWT进行比较,WPWT可以在不降低分割质量的前提下,有效的减少计算量和存储空间。(5)在参数法图像阈值分割方法中,通常需要假设图像的目标和背景区域的像素点灰度值满足一定的概率密度分布,这与实际情况有一定的出入。将灰度图像的阈值分割问题作为一维空间的聚类问题,提出了一种无需假设背景和目标区域概率密度分布的图像阈值分割方法。基于最小最大概率机理论,讨论了基于一维空间的最小最大概率机,并提出了设计阈值分割准则函数的新方法,新方法保证了图像阈值分割正确率的下界。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的研究背景
  • 1.2 聚类分析的基本概念和步骤
  • 1.2.1 基本概念
  • 1.2.2 基本步骤
  • 1.3 经典聚类方法回顾
  • 1.3.1 基于层次的聚类方法
  • 1.3.2 基于目标函数的聚类方法
  • 1.3.3 基于图论的聚类方法
  • 1.3.4 基于密度和网格的聚类方法
  • 1.4 聚类分析研究的主要问题
  • 1.4.1 如何为数据集选择合适的距离度量
  • 1.4.2 如何提高聚类算法对噪声、例外点的鲁棒性
  • 1.4.3 如何对高维数据进行聚类
  • 1.4.4 如何确定数据集包含的聚类数目
  • 1.5 本文的主要工作
  • 第2章 基于混合距离学习的双指数模糊C均值算法
  • 2.1 引言
  • 2.2 基于线性组合的混合距离表示新方法
  • 2.3 基于欧氏距离的双指数模糊C均值算法
  • 2.4 基于混合距离学习的双指数模糊C均值算法
  • 2.4.1 HDDI-FCM算法及推导
  • 2.4.2 参数的选择
  • 2.5 实验
  • 2.6 本章小结
  • 第3章 特征加权距离与软子空间相结合的模糊聚类新方法
  • 3.1 引言
  • 3.2 模糊C均值算法FCM
  • 3.3 双指数软子空间模糊聚类算法DI-FWD-FSC
  • 3.3.1 基于加权范数理论的特征加权距离
  • 3.3.2 算法描述
  • w和εu参数的选择'>3.3.3 εw和εu参数的选择
  • 3.3.4 模糊指数m、α和熵指数r,β的大小关系
  • 3.3.5 对约束条件的解释
  • 3.4 DI-FWD-FSC的收敛性
  • 3.4.1 Zangwill收敛定理
  • 3.4.2 DI-FWD-FSC全局收敛性证明
  • 3.5 实验
  • 3.5.1 模拟数据实验
  • 3.5.2 真实数据实验
  • 3.6 本章小结
  • 第4章 基于移相加权球面单簇聚类的时间序列异常检测及聚类数目估计
  • 4.1 引言
  • 4.1.1 研究背景
  • 4.1.2 相关工作
  • 4.2 时间序列聚类分析需要解决的问题
  • 4.3 移相加权球面单簇聚类算法PS-WS1M
  • 4.3.1 单位向量的若干性质
  • 4.3.2 算法推导及描述
  • 4.3.3 PS-WS1M的收敛性
  • 4.3.4 PS-WS1M的参数选取
  • 4.4 基于移相加权球面单簇聚类的单分类器
  • 4.4.1 单分类器设计概述
  • 4.4.2 目标类数据描述的获得
  • 4.4.3 实验研究
  • 4.5 基于移相加权球面单簇聚类的聚类数目估计
  • 4.5.1 PS-WSKM算法
  • 4.5.2 基于移相加权球面单簇聚类的层次聚类算法PS-WSXM
  • 4.5.3 实验
  • 4.6 本章小结
  • 第5章 基于加权Parzen窗的图像阈值分割算法
  • 5.1 引言
  • 5.2 基于Parzen窗估计的图像阈值分割
  • 5.3 基于加权Parzen窗估计的图像阈值分割
  • 5.3.1 参考像素点的计算
  • 5.3.2 加权Parzen窗图像阈值分割算法WPWT
  • 5.4 实验
  • 5.5 本章小结
  • 第6章 基于最小最大概率分割准则的图像阈值分割算法
  • 6.1 引言
  • 6.2 基于最小最大概率机的灰度图像阈值分割理论
  • 6.2.1 最小最大概率机
  • 6.2.2 一维空间两类别最小最大概率机
  • 6.3 灰度图像最小最大概率阈值分割算法
  • 6.4 实验
  • 6.5 本章小结
  • 第7章 结论与展望
  • 7.1 本文的主要贡献
  • 7.2 结论与展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  ;  

    无监督学习中聚类和阈值分割新方法研究
    下载Doc文档

    猜你喜欢