半监督分类技术及其算法研究

半监督分类技术及其算法研究

论文摘要

随着信息技术的发展,数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据,然而,提取有用的信息,知识已成为巨大的挑战。数据丰富加上强有力的数据分析工具的需求可描述为数据丰富,但信息贫乏。快速增长的海量数据收集,存放在大型和大量数据储存库中,很难找出数据中的规律。数据挖掘将传统的数据分析与机器学习复杂算法相结合,帮助人们分析海量数据中存在的模式、潜在的知识,给人们以很大的便利。半监督学习(Semi-supervised Learning)是机器学习和数据挖掘新兴的重要研究分支。随着数据分析和数据挖掘面临的实际问题不断深入,半监督学习技术已受到了许多科研工作者的关注,半监督分类学习能处理当数据只有少量类别标记已知,而大量类别标记未知的情况。如何构建这样一个模型得到一个泛化能力强的学习器是我们研究者需要解决的问题。它主要利用数据分布模型假设,建立学习器对未标记数据进行学习标记。因此,如何综合并充分利用已标记数据和未标记数据之间构造模型,提高学习器的准确率和性能,是一个极具挑战的问题。本论文主要从传统的分类算法出发,研究能适应于少量数据类别标记已知而大量数据类别标记未知情况下的半监督分类学习技术及算法。详细地阐述了半监督学习技术的研究现状,介绍了半监督分类技术模型,并针对若干半监督分类模型提出新的改进策略,并从理论和实验中检验策略的有效性。基于K近邻(KNW)的半监督自训练(self-training)模型同等地对待学习过程中的标记数据和未标记数据,而没有区分原本就是正确的标记和通过训练得到的标记这一潜在知识,本文提出一种改进策略,它能够更好的处理数据边界问题,实验表明该改进的方法比原来的方法具有更好的分类准确率。另一方面,通过支持向量机技术,分析了半监督支持向量机(S3VMs)模型,并给出一种改进的方法,最后结合粒子群算法来优化S3VMs模型的参数,以提高模型的泛化能力。实验也检验优化过参数的半监督支持向量机具有更好的性能。接着,研究半监督协同训练(Co-training)算法,结合传统的分类方法,给出一种半监督协同训练(Co-training)的改进算法,结果表明,使用多个分类器进行模型训练,会取得更好的效果。基于以上讨论,本论文的主要创新点概述如下:1、为充分利用有标记数据和未标记数据的各自特性,提出了半监督自训练(self-training)算法的改进模型;2、分析了半监督支持向量机分类算法,结合分支定界策略,对原有的方法进行改进,最后,融合粒子群算法对其模型参数进行优化。3、研究了半监督协同训练的(Co-training)模型,提出一种基于Co-training算法的改进策略,并获得了良好的性能。为了验证所改进的模型的有效性,本文的算法均在真实的数据集上进行大量实验,实验的结果表明,在模型假设成立的条件下,改进的模型均获得很好的性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 数据挖掘介绍
  • 1.2 数据分类
  • 1.2.1 分类的基本概念
  • 1.2.2 数据挖掘中分类的常用方法
  • 1.3 半监督学习
  • 1.3.1 半监督学习的研究现状
  • 1.3.2 半监督学习的基本技术
  • 1.4 半监督学习的意义
  • 1.5 本论文的主要工作
  • 1.6 本论文的组织结构
  • 第2章 基于近邻技术的半监督分类算法及其改进
  • 2.1 引言
  • 2.2 相关问题描述
  • 2.2.1 半监督学习的定义
  • 2.2.2 K最近邻分类算法
  • 2.3 基于K近邻的半监督自训练(KNN-self-training)分类算法
  • 2.4 改进的K近邻半监督模型(Improvement KNN-self-training)算法实现
  • 2.5 实验与讨论
  • 2.5.1 数据集及实验方法
  • 2.5.2 实验结果
  • 2.5.3 实验结果分析
  • 2.6 本章小结
  • 第3章 半监督支持向量机算法的研究
  • 3.1 引言
  • 3.2 半监督支持向量机模型介绍
  • 3.2.1 半监督支持向量机模型
  • 3VM'>3.2.2 一种改进的分支定界的半监督支持向量机算法IBBS3VM
  • 3.2.3 随迭代次数变化的粒子群算法(TVPSO)
  • 3.3 一种基于粒子群优化半监督支持向量机参数的分类算法
  • 3.4 实验与讨论
  • 3.4.1 数据集及实验方法
  • 3.4.2 实验结果分析
  • 3.5 本章小结
  • 第4章 基于 Co-training的半监督学习算法的研究
  • 4.1 引言
  • 4.2 Co-training的半监督学习算法
  • 4.3 基于Co-training算法的改进
  • 4.4 实验与讨论
  • 4.4.1 数据集及实验方法
  • 4.4.2 实验结果
  • 4.4.3 实验结果分析
  • 4.5 本章小结
  • 第5章 全文总结与展望
  • 5.1 全文总结
  • 5.2 进一步的工作
  • 参考文献
  • 读研期间撰写的论文
  • 读研期间研究项目情况
  • 读研期间获奖情况
  • 致谢
  • 相关论文文献

    • [1].融合主动学习的高光谱图像半监督分类[J]. 哈尔滨工程大学学报 2017(08)
    • [2].半监督分类方法的研究[J]. 计算机应用与软件 2015(11)
    • [3].基于遥感协同数据对岩性进行监督分类——以阿尔金西段江格勒萨依地区为例[J]. 科学技术与工程 2020(20)
    • [4].基于半监督分类乌鲁木齐市城镇用地格局演变分析[J]. 新疆师范大学学报(自然科学版) 2016(03)
    • [5].基于高斯混合模型的遥感影像半监督分类[J]. 武汉大学学报(信息科学版) 2011(01)
    • [6].基于自步学习与稀疏自表达的半监督分类方法[J]. 系统科学与数学 2020(01)
    • [7].一种基于交叉验证思想的半监督分类方法[J]. 西南科技大学学报 2014(01)
    • [8].基于监督分类的土地利用遥感影像提取方法研究——以武汉市为例[J]. 绿色科技 2018(14)
    • [9].调整聚类假设联合成对约束半监督分类方法[J]. 计算机应用 2018(11)
    • [10].基于改进的样本预选取的高光谱影像半监督分类[J]. 地理空间信息 2016(09)
    • [11].可能性聚类假设的半监督分类方法[J]. 计算机工程与应用 2020(09)
    • [12].基于流形距离的人工免疫无监督分类与识别算法[J]. 自动化学报 2008(03)
    • [13].改进极限学习机的移动界面模式半监督分类[J]. 计算机工程与应用 2018(02)
    • [14].引入负相似的高光谱图像半监督分类[J]. 信号处理 2015(04)
    • [15].基于Landsat8数据和监督分类方法的土地利用分类研究[J]. 安徽农学通报 2020(08)
    • [16].监督分类方法在遥感影像分类处理中的比较[J]. 江西科学 2017(03)
    • [17].基于特征分布的半监督分类[J]. 北京工业大学学报 2012(01)
    • [18].基于免疫无监督分类的老年人行为分析[J]. 吉林大学学报(工学版) 2011(06)
    • [19].半监督分类学习问题在生物信息学中的研究进展——以间谍算法为例[J]. 辽宁大学学报(自然科学版) 2019(01)
    • [20].标签带噪声数据的重加权半监督分类方法[J]. 烟台大学学报(自然科学与工程版) 2019(03)
    • [21].基于面向对象的无监督分类的遥感影像自动分类方法[J]. 地球物理学进展 2012(02)
    • [22].基于监督分类城市人工建筑占地面积时空变化——以聊城市为例[J]. 哈尔滨师范大学自然科学学报 2018(06)
    • [23].分层分类与监督分类相结合的遥感图像信息提取方法研究[J]. 环境保护与循环经济 2018(06)
    • [24].基于2DSVD的多变量时间序列半监督分类[J]. 计算机系统应用 2019(11)
    • [25].ENVI中几种监督分类方法精度比较[J]. 科技创新与应用 2018(13)
    • [26].基于MATLAB的遥感影像监督分类[J]. 技术与市场 2018(08)
    • [27].高分一号影像地物识别精度分析[J]. 地理空间信息 2018(12)
    • [28].基于监督分类融合与优化的森林面积变化自动检测方法[J]. 测绘 2019(03)
    • [29].对社会单位实施消防监督分类管理的探索与实践[J]. 武警学院学报 2010(02)
    • [30].一种基于KNN的半监督分类改进算法[J]. 广西师范大学学报(自然科学版) 2012(01)

    标签:;  ;  

    半监督分类技术及其算法研究
    下载Doc文档

    猜你喜欢