半监督数据降维方法的研究

半监督数据降维方法的研究

论文摘要

由于近几年来计算机科学技术的飞速发展,人们对数据的存储和收集能力已经大大改善,从而导致在模式识别领域和机器识别领域中难免会遇到大量的高维数据,必然会出现传说中的“维数灾难”。为了解决“维数灾难”这一严重问题,对高维数据进行数据降维这一方法便应运而生。所谓数据降维是指将样本从高维输入空间通过线性或非线性的映射投影到本征低维空间,从而找出隐藏在高维观测数据中有意义的低维结构,获得高维数据的一个有意义的低维表示的过程。在减少数据维数的同时,尽量减少甚至去除次要的冗余信息,并且保留或增强有意义的信息,使得降维之后的信息损失最小。它作为克服“维数灾难"的途径在相关领域中扮演着重要的角色。在一些现实的应用里,随着数据采集技术的不断更新,存储容量的不断扩大,使得获取无标签样本已变得非常容易,而对样本进行标定通常却需要付出相对较大的代价。与无标签样本的数量相比,有标签样本通常会显得非常少。传统的机器学习方法大多只考虑有标记数据或者未标记数据,但是在很多真实问题中往往是二者并存的。半监督学习由此应运而生。半监督学习能同时利用大量的无标记样本和少量的有标记样本来进行学习,因此,半监督学习是非常有意义的研究课题。本文首先对于数据降维领域的国内外研究情况进行了简单回顾,然后介绍了半监督数据降维的理论知识,最后详细介绍了我在这方面开展的一系列工作:1.为了更好的利用标记样本的标记信息及所有样本的结构来提高数据降维的效果,特提出一种新的半监督数据降维算法。它不但有效利用了数据的标签,还保持了所有样本的总体结构和局部结构。2.作为一种非线性降维技术,核方法具有能有效捕捉数据的非线性特征、对原始空间中数据的分布情况没有要求等优点,特引入核函数,使之成为非线性的核半监督数据降维方法。3.通过在人工数据集、UCI数据库、Olivetti人脸库和Binary Alphadigits数据库中的测试结果验证了上述两种算法的有效性。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 研究进展及状况
  • 1.3 论文主要研究内容
  • 第二章 数据降维和模式分类
  • 2.1 引言
  • 2.2 数据降维的基础理论
  • 2.3 常见的数据降维算法
  • 2.3.1 主成分分析(PCA)
  • 2.3.2 Fisher 线性判别分析法(LDA)
  • 2.3.3 局部保留投影(LPP)
  • 2.3.4 有监督的局部保留投影(SLPP)
  • 2.4 最近邻分类器
  • 2.5 本章小结
  • 第三章 线性半监督数据降维
  • 3.1 半监督学习问题的提出
  • 3.2 半监督学习理论
  • 3.2.1 半监督学习的有效性
  • 3.2.2 半监督学习的两个基本假设
  • 3.3 半监督学习算法基本思想
  • 3.4 一种新的半监督数据降维算法
  • 3.4.1 算法思想
  • 3.4.2 算法步骤
  • 3.5 实验与讨论
  • 3.5.1 人工数据
  • 3.5.2 真实数据识别
  • 3.5.3 人脸识别
  • 3.6 本章小结
  • 第四章 非线性核半监督数据降维
  • 4.1 核方法简介
  • 4.2 基于核的半监督数据降维方法
  • 4.2.1 核的半监督数据降维的概念
  • 4.2.2 核的半监督数据降维的原理
  • 4.3 算法步骤
  • 4.4 实验与讨论
  • 4.4.1 人脸识别二维可视化
  • 4.4.2 真实数据集识别
  • 4.4.3 文字识别
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 工作总结
  • 5.2 下一步的工作与展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].基于分层索引的高维数据对象检索[J]. 指挥信息系统与技术 2019(06)
    • [2].高维数据流异常节点动态跟踪仿真研究[J]. 计算机仿真 2020(10)
    • [3].高维数据的交互式沉浸可视化——以城市生活质量数据为例[J]. 装饰 2019(06)
    • [4].基于大数据的高维数据挖掘探究[J]. 通讯世界 2018(03)
    • [5].智能电网中高维数据聚类方法研究[J]. 智能计算机与应用 2016(01)
    • [6].浅谈高维数据变量选择现状与方法[J]. 数码世界 2016(07)
    • [7].基于高维数据流的异常检测算法[J]. 计算机工程 2018(01)
    • [8].大数据环境下的高维数据挖掘在入侵检测中的有效应用[J]. 电脑编程技巧与维护 2016(22)
    • [9].一种高维数据流的稳健监控方法[J]. 天津职业技术师范大学学报 2016(02)
    • [10].基于大数据的高维数据挖掘研究[J]. 信息与电脑(理论版) 2015(15)
    • [11].浅谈高维数据挖掘的现状与方法[J]. 福建电脑 2014(07)
    • [12].高维数据空间的一种网格划分方法[J]. 计算机工程与应用 2011(05)
    • [13].面向精细农业的高维数据本征维数估计方法研究进展[J]. 中国科学:信息科学 2010(S1)
    • [14].数学建模中的高维数据挖掘技术优化研究[J]. 计算机测量与控制 2017(09)
    • [15].采用高维数据聚类的目标跟踪(英文)[J]. 红外与激光工程 2016(04)
    • [16].非规则流中高维数据流典型相关性分析并行计算方法[J]. 软件学报 2012(05)
    • [17].基于控制过度遗漏发现概率的高维数据流异常诊断[J]. 数理统计与管理 2020(03)
    • [18].相关高维数据流在线监控方法研究[J]. 天津职业技术师范大学学报 2016(03)
    • [19].高维数据挖掘技术在教学质量监控与评价的应用研究[J]. 全国商情(理论研究) 2010(11)
    • [20].一种高维数据聚类遗传算法[J]. 计算机工程与科学 2010(08)
    • [21].基于联合树的隐私高维数据发布方法[J]. 计算机研究与发展 2018(12)
    • [22].基于正则化回归的变量选择方法在高维数据中的应用[J]. 实用预防医学 2018(06)
    • [23].一种支持高维数据查询的并行索引机制[J]. 华中科技大学学报(自然科学版) 2011(S1)
    • [24].矩阵奇异值分解及其在高维数据处理中的应用[J]. 数学的实践与认识 2011(15)
    • [25].高维数据变量选择方法综述[J]. 数理统计与管理 2017(04)
    • [26].高维数据空间索引方法的研究[J]. 电脑知识与技术 2009(16)
    • [27].基于聚类融合算法的高维数据聚类的研究[J]. 电子测量技术 2008(04)
    • [28].高维数据固有维数的自适应极大似然估计[J]. 计算机应用 2008(08)
    • [29].基于超网络和投影降维的高维数据流在线分类算法[J]. 计算机应用与软件 2020(10)
    • [30].面向高维数据的安全半监督分类算法[J]. 计算机系统应用 2019(05)

    标签:;  ;  ;  ;  

    半监督数据降维方法的研究
    下载Doc文档

    猜你喜欢