样本空间分析与分类器性能研究

样本空间分析与分类器性能研究

论文摘要

支持向量机(SVM)是一种基于结构风险最小化原则的通用模式分类方法,由于其强大的学习能力和良好的泛化性能,支持向量机已经应用到许多模式分类领域。最优分类超平面原理使SVM在解决线性可分问题时有很好的表现。但在遇到比较复杂的线性不可分问题时,并没有一个可靠的方案保证其最佳性能。 为了充分利用分布式并行计算机系统,如集群计算机和网格,解决大规模模式分类问题,吕宝粮和他的合作者提出了一种便于并行计算的机器学习任务分解方法,称为最小最大模块化方法。该方法可以将训练样本集划分为一系列较小的子问题独立训练,并使用最小化原则和最大化原则将训练出的子问题分类器综合成原问题的解。通过对样本在空间中分布的分析,可以利用M3划分训练样本的过程来近似地划分样本空间,从而将复杂的整体问题转换为一系列较为简单的局部问题。由于局部问题中的样本分布较为简单,非常适合于使用SVM来寻找最佳分类超平面。 首先,本文描述了SVM的最优分界面原理。并说明了SVM如何用核方法解决非线性问题。同时还说明了对于复杂的非线性问题,分类器的性能还有改进余地。 然后介绍了最小最大模块化方法的基本思想,不同的训练样本划分方法以及它们对分类器准确率的影响,并描述了对测试过程的优化方法。 接下来重点介绍了一种旨在提高分类器处理线性不可分问题的能力的样本空间分析方法。对二类分类问题,该方法首先用感知器提取样本的分布信息,将整体问题划分为局部空间中的分类问题,使划分后得到的子问题能够尽量准确地反映样本在空间中的分布信息。同时使子问题尽量简单,并集中反映局部分布信息。而后使用SVM求出各个局部问题的最优分界面。之后用最小最大模块化网络对局部分界面进行综合,以得到整体问题的解。 最后通过将这种新的方法应用到分类问题中,并与SVM以及其它M~3划分方法进行比较。仿真实验表明,本文提出的方法能够有效地分析样本空间,提取样本分布信息,并借此提高分类器的泛化能力。

论文目录

  • 摘要
  • ABSTRACT(英文摘要)
  • 主要符号对照表
  • 第一章 引言
  • 1.1 支持向量机
  • 1.2 最小最大模块化框架与样本空间分析
  • 1.3 文本分类
  • 1.4 本论文主要工作及内容安排
  • 第二章 支持向量机
  • 2.1 最优超平面
  • 2.2 线性支持向量机
  • 2.3 核函数与非线性支持向量机
  • 2.3.1 非线性支持向量机
  • 2.3.2 核函数
  • 2.4 改进方向
  • 第三章 最小最大模块化框架
  • 3.1 最小最大模块化方法的基本原理
  • 3.2 划分规则
  • 3.2.1 无规则划分
  • 3.2.2 超平面划分
  • 3.3 集成规则
  • 3.3.1 两种集成单元
  • 3.3.2 两条集成规则
  • 第四章 样本空间分析
  • 4.1 分析样本空间的目的
  • 4.1.1 已有方法的特点与局限性
  • 4.1.1.1 支持向量机
  • 4.1.1.2 最小最大模块化框架
  • 4.1.2 对新方法的设想
  • 4.2 算法实现及其分析
  • 4.2.1 局部感知器设计
  • 4.2.2 递归终止条件
  • 4.2.3 算法描述
  • 4.2.4 算法复杂度分析
  • 4.3 仿真实验
  • 4.3.1 实验设置
  • 4.3.2 实验结果与讨论
  • 第五章 文本分类
  • 5.1 数据与实验说明
  • 5.2 实验结果
  • 第六章 总结与展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间的研究成果及发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    样本空间分析与分类器性能研究
    下载Doc文档

    猜你喜欢