不平衡数据集分类问题研究

不平衡数据集分类问题研究

论文摘要

分类是机器学习领域的重要研究方向之一,经过多年发展形成了一些较为成熟的算法,并在实际中取得成功的应用。这些传统的分类算法以分类正确率作为最大的目标,且假定数据集中各类别样本数量基本平衡。然而在实际问题中,存在这样的一类数据,在数据集中某一类的样本数量远远少于其它类样本数量,即数据集中不同类别样本的数量是非平衡的,这样的数据称为不平衡数据。通常,将数量上占多数的类称为多数类,而占少数的类称为少数类。对不平衡数据集分类时,传统分类算法为追求更高的分类正确率,在分类的过程中偏好数量上占多数的多数类,结果多数类的分类正确率较高,而少数类分类正确率较低。例如,在某些极端情况下,某个传统的分类算法将所有的样本都分类为多数类,依然能获得较高的整体分类精度,却不能识别一个少数类。而在实际问题中,少数类的分类精度往往更为重要。因此,如何对不平衡数据集进行正确分类、提高少数类的分类精度成为数据挖掘领域中的一个研究重点。针对不平衡数据集的研究集中在三个方面:数据层面的方法、算法层面的方法及评价标准。数据层面方法即是对数据集进行预处理,采用采样技术重构数据集,以此改变原有的数据分布,减少不平衡程度,进而使的数据集类分布基本平衡,较常用的方法包括欠采样、过采样;算法层面的方法,即改进传统分类算法,使其在分类过程中更加注重对少数类的分类,提高少数类的分类精度,从而适应不平衡数据集的分类问题,如代价敏感学习、集成学习等;对不平衡数据集分类的性能评价标准也是研究的重点之一,常用的标准有F-Measure、G-Mean等。本文针对不平衡数据集分类问题,尝试将采样技术与传统分类算法相结合,提出了四种用于解决不平衡数据集分类问题的新方法。主要创新成果有:(1)使用遗传算法中的交叉算子与变异算子生成新的少数类样本,采用两样本间的欧几里得距离检验新生成少数类样本的有效性。在UCI数据集的实验结果表明,该方法在提高少数类的分类精度方面取得了较好的效果。(2)使用聚类技术中的K-means算法首先将多数类样本聚成多个簇,然后依次从每个簇中抽取一定数量的多数类样本,使所有抽取到的多数类样本个数与少数类样本个数基本相同,最后将多数类样本与少数类样本合并,作为Bagging成员分类器的训练数据。K-means算法的不稳定性,可以在一定程度上保证成员分类器之间的差异性。(3)使用AdaBoost算法对数据集预处理,得到各样例权重。训练基分类器时,针对多数类数据不再采用bootstrap抽样方法,而是分别随机选择部分权重较大的样例与部分权重较小的样例,使两部分样例个数与少数类样例个数相同,并组成Bagging成员分类器的训练数据。(4)提出基于AdaBoost的边界数据过抽样算法,使用AdaBoost算法迭代多次后,选择部分权重较大的数据作为边界数据,并对这部分边界数据进行随机过抽样,进而使数据集中两类样本分布趋于平衡,从而达到提高少数类分类精度的目的。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 本文主要研究内容及创新点
  • 1.3 本文组织结构
  • 第二章 不平衡数据集领域的研究现状
  • 2.1 不平衡数据集分类难点
  • 2.1.1 样本缺失
  • 2.1.2 不恰当的评价标准
  • 2.1.3 数据噪声
  • 2.1.4 不恰当的归纳偏置
  • 2.2 不平衡数据集研究现状
  • 2.2.1 数据层面方法
  • 2.2.2 算法层面方法
  • 2.2.3 评价标准
  • 2.3 分类器的性能评估方法
  • 2.3.1 测试集
  • 2.3.2 交叉验证
  • 2.3.3 其他估计方法
  • 第三章 KNN 算法在不平衡数据集中的应用
  • 3.1 KNN 算法概述
  • 3.2 遗传算法概述
  • 3.3 基于 KNN 算法的少数类样本生成方法——G-KNN 算法
  • 3.4 G-KNN 算法实验
  • 3.4.1 G-KNN 算法实验设计
  • 3.4.2 G-KNN 实验结果及分析
  • 3.5 总结
  • 第四章 基于 Bagging 的欠抽样集成学习算法
  • 4.1 Bagging 算法概述
  • 4.2 聚类算法概述
  • 4.3 基于 Bagging 的欠抽样集成学习算法描述
  • 4.4 实验结果及分析
  • 4.4.1 实验环境设计
  • 4.4.2 实验结果及分析
  • 4.5 结论
  • 第五章 基于 AdaBoost 的抽样层算法
  • 5.1 AdaBoost 算法概述
  • 5.2 基于 Adaboost 的抽样层算法
  • 5.2.1 基于 Adaboost 的欠抽样集成学习算法
  • 5.2.2 基于 AdaBoost 的边界样本过抽样算法
  • 5.3 U- Ensemble 算法实验
  • 5.3.1 U- Ensemble 算法实验设计
  • 5.3.2 U- Ensemble 算法实验结果及分析
  • 5.4 BOBA 算法实验
  • 5.4.1 BOBA 算法实验设计
  • 5.4.2 BOBA 算法实验结果及分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 本文研究内容总结
  • 6.2 下一步工作
  • 参考文献
  • 攻读硕士学位期间发表的论文和参与的项目
  • 致谢
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  

    不平衡数据集分类问题研究
    下载Doc文档

    猜你喜欢