基于大规模数据集的模式分类器研究

基于大规模数据集的模式分类器研究

论文摘要

在对大规模数据集的模式分类过程中,过多的特征及大量的训练样本都会引发分类的速度很慢及对计算机的内存提出很高的要求等问题,所以在模式分类前要对数据集进行必要的数据处理:特征选择及样本选择,以去除与分类不相关的冗余特征,选择出决定分类器非线性决策面的样本集,用简化的训练集来训练分类器,以提高分类精度及减少对计算机的内存要求。正交设计和均匀设计是两种常用的试验设计方法,二者均能够利用较少的试验次数就可以找出因素间的最优搭配。而支持向量机能处理小样本、具有很好的泛化能力且不受数据集维数的制约。结合三者的优势,本文以支持向量机为分类器,分别提出了基于正交设计和均匀设计的的特征选择方法。根据数据集的特征数目及相应正交表和均匀表的结构,安排训练、测试,最后对优选出的特征子集检验,仿真结果表明,这两种特征选择方法均能够去除冗余特征而且能取得比使用特征全集更高的分类率。支持向量机的一种改进算法是简约支持向量机(Reduced Support Vector Machine,简称RSVM),该算法在训练集中任意选取一部分样本作为支持向量来求解无约束优化问题和构造非线性决策面,相对于求解支持向量机原问题的有约束非线性规划问题,减少了计算难度和计算时间,并且减轻了计算机的内存需求,比标准的SVM的性能在一定程度上有所提高。但是,由于任意选取的样本集不具有代表性,仿真结果缺乏稳定性,因此,本文提出利用减法聚类法分别找出数据集中每类样本的最佳聚类数目,再利用模糊C均值聚类法找出属于每类样本各个聚类中心的样本点,并从中选出一些样本点作为支持向量来改进RSVM算法,得到改进的简约支持向量机(Modified Reduced Support Vector Machine,简称MRSVM),以提高分类器的稳定性。仿真结果表明,MRSVM分类器同RSVM相比,对于同一测试数据集,运行程序所需要的时间少了,而且训练误差和测试误差也减少了很多。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 相关理论的研究进展
  • 1.2.1 模式分类技术
  • 1.2.2 特征选择
  • 1.2.3 样本选择
  • 1.3 本文主要研究内容
  • 第2章 统计学习理论和支持向量机
  • 2.1 引言
  • 2.2 机器学习的基本问题和方法
  • 2.2.1 机器学习问题的表示
  • 2.2.2 经验风险最小化原则
  • 2.3 统计学习理论
  • 2.3.1 学习过程一致性的条件
  • 2.3.2 函数集的学习性能与VC 维
  • 2.3.3 推广性的界
  • 2.3.4 结构风险最小化原则
  • 2.4 支持向量机
  • 2.4.1 最优超平面
  • 2.4.2 非线性支持向量机
  • 2.4.3 改进支持向量机的研究
  • 2.4.4 支持向量机的模型参数选择的研究
  • 第3章 基于正交设计的特征选择方法
  • 3.1 正交设计
  • 3.1.1 正交表
  • 3.1.2 正交试验设计的优点
  • 3.1.3 正交试验设计的基本步骤
  • 3.1.4 试验结果的方差分析法
  • 3.2 试
  • 3.3 仿真试验
  • 3.4 本章小结
  • 第4章 基于均匀设计的特征选择方法
  • 4.1 均匀设计
  • 4.1.1 均匀设计表
  • 4.1.2 均匀设计的基本步骤
  • 4.1.3 试验结果的回归分析法
  • 4.2 试验方案
  • 4.3 仿真试验
  • 4.4 本章小结
  • 第5章 基于样本选择训练分类器的方法
  • 5.1 引言
  • 5.1.1 约简支持向量机算法
  • 5.1.2 样本随机选择的仿真
  • 5.2 利用代表样本点构造分类器的非线性决策面
  • 5.2.1 模糊C 均值聚类
  • 5.2.2 减法聚类算法
  • 5.2.3 MRSVM 的算法
  • 5.2.4 仿真实例
  • 5.3 本章的拓展建议
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基于动态分类器集成系统的卷烟感官质量预测方法[J]. 计算机应用与软件 2020(01)
    • [2].基于标准数据集的分类器融合学习模型[J]. 微型电脑应用 2020(04)
    • [3].一种自适应子融合集成多分类器方法[J]. 计算机测量与控制 2019(04)
    • [4].基于多分类器融合的近红外光谱技术鉴别蜂蜜品种[J]. 化学分析计量 2019(03)
    • [5].基于分类器的身份证号码识别研究[J]. 贵州科学 2018(01)
    • [6].一种基于多分类器融合的人体运动行为识别模型[J]. 计算机科学 2016(12)
    • [7].一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版) 2017(02)
    • [8].一种代价敏感的三类分类器评估方法的研究与应用[J]. 通化师范学院学报 2017(08)
    • [9].基于多分类器组合的遥感土地利用分类研究[J]. 安徽农业科学 2015(32)
    • [10].多分类器融合与单分类器影像分类比较研究[J]. 矿山测量 2016(04)
    • [11].《未来垃圾分类器》[J]. 幼儿教育 2020(14)
    • [12].基于多分类器组合的城市不透水面提取研究[J]. 城市地理 2017(04)
    • [13].《垃圾分类器》[J]. 辅导员 2016(11)
    • [14].多分类器融合的遥感影像分类方法实验研究[J]. 全球定位系统 2020(05)
    • [15].一种基于核聚类的多分类器选择算法[J]. 电子技术与软件工程 2020(13)
    • [16].基于一种新的级联分类器的目标检测系统[J]. 现代电子技术 2020(01)
    • [17].最佳的分类器链局部检测与挖掘算法[J]. 计算机工程与设计 2017(11)
    • [18].基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J]. 中国科技论文 2016(04)
    • [19].近红外光谱和多分类器融合的葡萄酒品种判别研究[J]. 光谱学与光谱分析 2016(11)
    • [20].基于多分类器集成的语音情感识别[J]. 微电子学与计算机 2015(07)
    • [21].基于集成分类器的流量识别技术研究[J]. 科技视界 2015(33)
    • [22].二叉树型多分类器融合的轴承故障诊断方法[J]. 计算机工程与应用 2015(21)
    • [23].智能垃圾分类器[J]. 科学启蒙 2013(12)
    • [24].一种新的多分类器融合方法[J]. 西南师范大学学报(自然科学版) 2014(01)
    • [25].动态加权投票的多分类器聚合[J]. 现代计算机(专业版) 2014(05)
    • [26].面向用户观点分析的多分类器集成和优化技术[J]. 计算机学报 2013(08)
    • [27].基于证据理论的优化集成分类器融合算法及应用[J]. 化工学报 2012(09)
    • [28].多类不平衡数据上的分类器性能比较研究[J]. 计算机工程 2011(10)
    • [29].基于多分类器融合的语音识别方法研究[J]. 重庆邮电大学学报(自然科学版) 2011(04)
    • [30].基于粗糙集约简的多分类器系统构造方法[J]. 计算机工程与应用 2010(03)

    标签:;  ;  ;  ;  ;  

    基于大规模数据集的模式分类器研究
    下载Doc文档

    猜你喜欢